版本 0.16#

版本 0.16.1#

2015年4月14日

更新日志#

错误修复#

版本 0.16#

2015年3月26日

亮点#

  • 速度改进(尤其是在 cluster.DBSCAN 中),内存需求减少,错误修复和更好的默认设置。

  • 多项逻辑回归和 linear_model.LogisticRegressionCV 中的路径算法。

  • 通过 decomposition.IncrementalPCA 实现 PCA 的核外学习。

  • 使用 calibration.CalibratedClassifierCV 对分类器进行概率校准。

  • cluster.Birch 聚类方法,适用于大规模数据集。

  • 通过 neighbors.LSHForest 中的局部敏感哈希森林实现可扩展的近似最近邻搜索。

  • 改进的错误消息,以及在使用格式错误输入数据时更好的验证。

  • 与 pandas 数据帧更健壮的集成。

更新日志#

新功能#

增强功能#

文档改进#

错误修复#

API 更改摘要#

  • GridSearchCVcross_val_score 以及其他元估计器不再将 pandas DataFrames 转换为数组,允许在自定义估计器中进行 DataFrame 特定的操作。

  • multiclass.fit_ovrmulticlass.predict_ovrpredict_proba_ovrmulticlass.fit_ovomulticlass.predict_ovomulticlass.fit_ecocmulticlass.predict_ecoc 已被弃用。请改用底层估计器。

  • 最近邻估计器过去接受任意关键字参数并将其传递给其距离度量。scikit-learn 0.18 将不再支持此功能;请改用 metric_params 参数。

  • fit 方法的 n_jobs 参数已转移到 LinearRegression 类的构造函数中。

    LinearRegression class.

  • multiclass.OneVsRestClassifierpredict_proba 方法现在在多分类情况下为每个样本返回两个概率;这与其他估计器和方法文档一致,但以前的版本意外地只返回了正概率。由 Will Lamond 和 Lars Buitinck 修复。

  • linear_model.ElasticNetlinear_model.Lasso 中 precompute 的默认值更改为 False。当 n_samples > n_features 时,设置 precompute 为 “auto” 被发现较慢,因为 Gram 矩阵的计算成本很高,超过了仅拟合 Gram 的好处。 precompute="auto" 现已弃用,并将在 0.18 中删除。由 Manoj Kumar 贡献。

  • linear_model.enet_pathlinear_model.enet_path 中公开 positive 选项,该选项限制系数为正。由 Manoj Kumar 贡献。

  • 用户现在在执行多分类或多标签(即非二元)分类时,应为 sklearn.metrics.f1_scoresklearn.metrics.fbeta_scoresklearn.metrics.recall_scoresklearn.metrics.precision_score 提供显式的 average 参数。由 Joel Nothman 贡献。

  • 交叉验证的 scoring 参数现在接受 'f1_micro''f1_macro''f1_weighted''f1' 现在仅用于二元分类。类似的更改也适用于 'precision''recall'。由 Joel Nothman 贡献。

  • linear_model.enet_pathlinear_model.lasso_path 中的 fit_interceptnormalizereturn_models 参数已删除。它们自 0.14 版以来已被弃用。

  • 从现在开始,当在模型拟合之前调用任何类似 predict 的方法时,所有估计器都将统一引发 NotFittedError。由 Raghav RV 贡献。

  • 输入数据验证已重构,以实现更一致的输入验证。 check_arrays 函数已替换为 check_arraycheck_X_y。由 Andreas Müller 贡献。

  • 允许 sklearn.neighbors.NearestNeighbors 及其家族中的方法 radius_neighbors, kneighbors, kneighbors_graphradius_neighbors_graphX=None。如果设置为 None,则对于每个样本,这将避免将样本本身设置为第一个最近邻居。由 Manoj Kumar 贡献。

  • neighbors.kneighbors_graphneighbors.radius_neighbors_graph 中添加参数 include_self,必须由用户明确设置。如果设置为 True,则样本本身被视为第一个最近邻居。

  • thresh 参数已弃用,取而代之的是 GMMDPGMMVBGMM 中的新 tol 参数。有关详细信息,请参阅 Enhancements 部分。由 Hervé Bredin 贡献。

  • 估计器将尽可能将 dtype 为 object 的输入视为数字。由 Andreas Müller 贡献。

  • 当在空数据(小于 1 个样本或 2D 输入小于 1 个特征)上拟合时,估计器现在一致地引发 ValueError。由 Olivier Grisel 贡献。

  • linear_model.SGDClassifierlinear_model.SGDRegressorlinear_model.Perceptronlinear_model.PassiveAggressiveClassifierlinear_model.PassiveAggressiveRegressorshuffle 选项现在默认为 True

  • cluster.DBSCAN 现在使用确定性初始化。 random_state 参数已弃用。由 Erich Schubert 贡献。

代码贡献者#

A. Flaxman, Aaron Schumacher, Aaron Staple, abhishek thakur, Akshay, akshayah3, Aldrian Obaja, Alexander Fabisch, Alexandre Gramfort, Alexis Mignon, Anders Aagaard, Andreas Mueller, Andreas van Cranenburgh, Andrew Tulloch, Andrew Walker, Antony Lee, Arnaud Joly, banilo, Barmaley.exe, Ben Davies, Benedikt Koehler, bhsu, Boris Feld, Borja Ayerdi, Boyuan Deng, Brent Pedersen, Brian Wignall, Brooke Osborn, Calvin Giles, Cathy Deng, Celeo, cgohlke, chebee7i, Christian Stade-Schuldt, Christof Angermueller, Chyi-Kwei Yau, CJ Carey, Clemens Brunner, Daiki Aminaka, Dan Blanchard, danfrankj, Danny Sullivan, David Fletcher, Dmitrijs Milajevs, Dougal J. Sutherland, Erich Schubert, Fabian Pedregosa, Florian Wilhelm, floydsoft, Félix-Antoine Fortin, Gael Varoquaux, Garrett-R, Gilles Louppe, gpassino, gwulfs, Hampus Bengtsson, Hamzeh Alsalhi, Hanna Wallach, Harry Mavroforakis, Hasil Sharma, Helder, Herve Bredin, Hsiang-Fu Yu, Hugues SALAMIN, Ian Gilmore, Ilambharathi Kanniah, Imran Haque, isms, Jake VanderPlas, Jan Dlabal, Jan Hendrik Metzen, Jatin Shah, Javier López Peña, jdcaballero, Jean Kossaifi, Jeff Hammerbacher, Joel Nothman, Jonathan Helmus, Joseph, Kaicheng Zhang, Kevin Markham, Kyle Beauchamp, Kyle Kastner, Lagacherie Matthieu, Lars Buitinck, Laurent Direr, leepei, Loic Esteve, Luis Pedro Coelho, Lukas Michelbacher, maheshakya, Manoj Kumar, Manuel, Mario Michael Krell, Martin, Martin Billinger, Martin Ku, Mateusz Susik, Mathieu Blondel, Matt Pico, Matt Terry, Matteo Visconti dOC, Matti Lyra, Max Linke, Mehdi Cherti, Michael Bommarito, Michael Eickenberg, Michal Romaniuk, MLG, mr.Shu, Nelle Varoquaux, Nicola Montecchio, Nicolas, Nikolay Mayorov, Noel Dawe, Okal Billy, Olivier Grisel, Óscar Nájera, Paolo Puggioni, Peter Prettenhofer, Pratap Vardhan, pvnguyen, queqichao, Rafael Carrascosa, Raghav R V, Rahiel Kasim, Randall Mason, Rob Zinkov, Robert Bradshaw, Saket Choudhary, Sam Nicholls, Samuel Charron, Saurabh Jha, sethdandridge, sinhrks, snuderl, Stefan Otte, Stefan van der Walt, Steve Tjoa, swu, Sylvain Zimmer, tejesh95, terrycojones, Thomas Delteil, Thomas Unterthiner, Tomas Kazmar, trevorstephens, tttthomasssss, Tzu-Ming Kuo, ugurcaliskan, ugurthemaster, Vinayak Mehta, Vincent Dubourg, Vjacheslav Murashkin, Vlad Niculae, wadawson, Wei Xue, Will Lamond, Wu Jiang, x0l, Xinfan Meng, Yan Yi, Yu-Chin