版本 0.17#

版本 0.17.1#

2016 年 2 月 18 日

更新日志#

错误修复#

将 vendored joblib 升级到版本 0.9.4，该版本修复了 joblib.Parallel 中的一个重要错误，该错误在处理大于 1MB 的数据集时可能会默默地产生错误结果：joblib/joblib
修复了使用 scikit-learn version <= 0.16 生成的 Bunch pickle 的读取问题。这可能会影响已经使用 scikit-learn 0.16 下载数据集并使用 scikit-learn 0.17 加载它的用户。请参阅 #6196 了解这如何影响 datasets.fetch_20newsgroups。作者：Loic Esteve。
修复了阻止使用 ROC AUC 分数在大型数组上对多个 CPU / 核心执行网格搜索的错误。请参阅 #6147。作者：Olivier Grisel。
修复了阻止在 ensemble.GradientBoostingRegressor 中正确设置 presort 参数的错误。请参阅 #5857。作者：Andrew McCulloh。
修复了评估 decomposition.LatentDirichletAllocation 模型的困惑度时出现的 joblib 错误。请参阅 #6258。作者：Chyi-Kwei Yau。

版本 0.17#

2015 年 11 月 5 日

更新日志#

新功能#

除了 preprocessing.RobustScaler 之外的所有 Scaler 类都可以通过调用 partial_fit 在线拟合。作者：Giorgio Patrini。
新类 ensemble.VotingClassifier 实现了一个“多数规则”/“软投票”集成分类器来组合分类估计器。作者：Sebastian Raschka。
新类 preprocessing.RobustScaler 提供了 preprocessing.StandardScaler 的替代方案，用于对特征进行居中和范围标准化，对异常值具有鲁棒性。作者：Thomas Unterthiner。
新类 preprocessing.MaxAbsScaler 提供了 preprocessing.MinMaxScaler 的替代方案，用于当数据已经居中或稀疏时对特征进行范围标准化。作者：Thomas Unterthiner。
新类 preprocessing.FunctionTransformer 将 Python 函数转换为 Pipeline 兼容的 transformer 对象。作者：Joe Jevnik。
新类 cross_validation.LabelKFold 和 cross_validation.LabelShuffleSplit 分别生成类似于 cross_validation.KFold 和 cross_validation.ShuffleSplit 的训练-测试折叠，但折叠是根据标签数组进行条件设置的。作者：Brian McFee、Jean Kossaifi 和 Gilles Louppe。
decomposition.LatentDirichletAllocation 实现了具有在线变分推断的 Latent Dirichlet Allocation 主题模型。作者：Chyi-Kwei Yau，代码基于 Matt Hoffman 的实现。（#3659）
新求解器 sag 实现了随机平均梯度下降，可用于 linear_model.LogisticRegression 和 linear_model.Ridge。该求解器对于大型数据集非常高效。作者：Danny Sullivan 和 Tom Dupre la Tour。（#4738）
新求解器 cd 在 decomposition.NMF 中实现了坐标下降。通过将新参数 solver 设置为 pg，仍然可以使用以前基于投影梯度的求解器，但已弃用，并将在 0.19 中删除，同时删除 decomposition.ProjectedGradientNMF 和参数 sparseness、eta、beta 和 nls_max_iter。新参数 alpha 和 l1_ratio 控制 L1 和 L2 正则化，而 shuffle 在 cd 求解器中添加了一个洗牌步骤。作者：Tom Dupre la Tour 和 Mathieu Blondel。

增强功能#

manifold.TSNE 现在支持通过 Barnes-Hut 方法进行近似优化，从而大大加快了拟合速度。作者：Christopher Erick Moody。（#4025）
cluster.MeanShift 现在支持并行执行，如 mean_shift 函数中实现的那样。作者：Martino Sorbaro。
naive_bayes.GaussianNB 现在支持使用 sample_weight 进行拟合。作者：Jan Hendrik Metzen。
dummy.DummyClassifier 现在支持先验拟合策略。作者：Arnaud Joly。
为 mixture.GMM 及其子类添加了 fit_predict 方法。作者：Cory Lorenz。
添加了 metrics.label_ranking_loss 指标。作者：Arnaud Joly。
添加了 metrics.cohen_kappa_score 指标。
为 bagging 集成模型添加了 warm_start 构造函数参数以增加集成的规模。作者：Tim Head。
添加了在不进行平均的情况下使用多输出回归指标的选项。作者：Konstantin Shmelkov 和 Michael Eickenberg。
为 cross_validation.train_test_split 添加了 stratify 选项以进行分层拆分。作者：Miroslav Batchkarov。
tree.export_graphviz 函数现在支持对 tree.DecisionTreeClassifier 和 tree.DecisionTreeRegressor 进行美学改进，包括按多数类或杂质着色节点、显示变量名称以及使用节点比例而不是原始样本计数的选项。作者：Trevor Stephens。
通过避免损失计算，提高了 linear_model.LogisticRegression 中 newton-cg 求解器的速度。作者：Mathieu Blondel 和 Tom Dupre la Tour。
支持 class_weight 的分类器中的 class_weight="auto" 启发式方法已弃用，并替换为 class_weight="balanced" 选项，该选项具有更简单的公式和解释。作者：Hanna Wallach 和 Andreas Müller。
为 linear_model.PassiveAggressiveClassifier 添加了 class_weight 参数，用于根据类频率自动加权样本。作者：Trevor Stephens。
添加了从 API 参考页面到用户指南的反向链接。作者：Andreas Müller。
sklearn.metrics.f1_score、sklearn.metrics.fbeta_score、sklearn.metrics.recall_score 和 sklearn.metrics.precision_score 的 labels 参数已扩展。现在可以忽略一个或多个标签，例如在多类问题中忽略多数类。作者：Joel Nothman。
为 linear_model.RidgeClassifier 添加了 sample_weight 支持。作者：Trevor Stephens。
提供从 sklearn.metrics.pairwise.cosine_similarity 输出稀疏输出的选项。作者：Jaidev Deshpande。
添加了 preprocessing.minmax_scale 以提供 preprocessing.MinMaxScaler 的函数接口。作者：Thomas Unterthiner。
dump_svmlight_file 现在处理多标签数据集。作者：Chih-Wei Chang。
RCV1 数据集加载器（sklearn.datasets.fetch_rcv1）。作者：Tom Dupre la Tour。
“Wisconsin Breast Cancer”经典两类分类数据集现已包含在 scikit-learn 中，可通过 datasets.load_breast_cancer 获得。
升级到 joblib 0.9.3 以受益于新的短任务自动批处理。这使得 scikit-learn 在并行执行许多非常短的任务时能够受益于并行性，例如 grid_search.GridSearchCV 元估计器在小型数据集上使用 n_jobs > 1 和大型参数网格时。作者：Vlad Niculae、Olivier Grisel 和 Loic Esteve。
有关 joblib 0.9.3 中更改的更多详细信息，请参阅发行说明：joblib/joblib
使用来自 linear_model.Lasso 的坐标下降法提高了 decomposition.DictLearning 的速度（每次迭代快 3 倍）。作者：Arthur Mensch。
Nikolay Mayorov 实现了最近邻查询（使用球树）的并行处理（多线程）。
允许 datasets.make_multilabel_classification 输出稀疏的 y。作者：Kashif Rasul。
cluster.DBSCAN 现在接受预计算距离的稀疏矩阵，从而实现内存高效的距离预计算。作者：Joel Nothman。
tree.DecisionTreeClassifier 现在公开了一个 apply 方法，用于检索样本被预测为的叶子索引。作者：Daniel Galvez 和 Gilles Louppe。
通过在树生长过程中计算杂质改进的代理，加快了决策树回归器、随机森林回归器、额外树回归器和梯度提升估计器的速度。代理数量使得最大化该值的拆分也最大化了杂质改进。作者：Arnaud Joly、Jacob Schreiber 和 Gilles Louppe。
通过减少在计算杂质度量时所需的计算次数，同时考虑计算统计量的线性关系，加快了基于树的方法的速度。这种效果在额外树和具有分类或稀疏特征的数据集上尤其明显。作者：Arnaud Joly。
ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 现在公开了一个 apply 方法，用于检索每个样本在每棵树中结束的叶子索引。作者：Jacob Schreiber。
为 linear_model.LinearRegression 添加了 sample_weight 支持。作者：Sonny Hu。（##4881）
为 manifold.TSNE 添加了 n_iter_without_progress 以控制停止标准。作者：Santi Villalba。（#5186）
为 linear_model.Ridge 添加了可选参数 random_state，用于设置 sag 求解器中使用的伪随机生成器的种子。作者：Tom Dupre la Tour。
为 linear_model.LogisticRegression 添加了可选参数 warm_start。如果设置为 True，则求解器 lbfgs、newton-cg 和 sag 将使用上次拟合中计算的系数进行初始化。作者：Tom Dupre la Tour。
为 linear_model.LogisticRegression 添加了 sample_weight 支持，适用于 lbfgs、newton-cg 和 sag 求解器。作者：Valentin Stolbunov。对 liblinear 求解器添加了支持。作者：Manoj Kumar。
为 ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 添加了可选参数 presort，保持默认行为不变。这允许梯度提升器在构建深层树或使用稀疏数据时关闭预排序。作者：Jacob Schreiber。
修改了 metrics.roc_curve 以默认删除不必要的阈值。作者：Graham Clenaghan。
添加了 feature_selection.SelectFromModel 元转换器，可与具有 coef_ 或 feature_importances_ 属性的估计器一起使用，以选择输入数据的重要特征。作者：Maheshakya Wijewardena、Joel Nothman 和 Manoj Kumar。
添加了 metrics.pairwise.laplacian_kernel。作者：Clyde Fare。
covariance.GraphLasso 允许通过 enet_tol 参数分别控制 Elastic-Net 子问题的收敛标准。
改进了 decomposition.DictionaryLearning 中的详细程度。
ensemble.RandomForestClassifier 和 ensemble.RandomForestRegressor 不再显式存储用于 bagging 的样本，从而大大减少了存储随机森林模型的内存占用。
为 linear_model.Lars 和 linear_model.lars_path 添加了 positive 选项，以强制系数为正。（#5131）
为 metrics.pairwise.euclidean_distances 添加了 X_norm_squared 参数，用于提供 X 的预计算平方范数。
为 pipeline.Pipeline 添加了 fit_predict 方法。
添加了 preprocessing.minmax_scale 函数。

错误修复#

修复了 dummy.DummyClassifier 在稀疏多标签输出下的非确定性。作者：Andreas Müller。
修复了 linear_model.RANSACRegressor 的输出形状为 (n_samples, )。作者：Andreas Müller。
修复了 decomposition.DictLearning 中 n_jobs < 0 时的错误。作者：Andreas Müller。
修复了 grid_search.RandomizedSearchCV 在大型离散网格下可能消耗大量内存的错误。作者：Joel Nothman。
修复了 linear_model.LogisticRegressionCV 中 penalty 在最终拟合中被忽略的错误。作者：Manoj Kumar。
修复了 ensemble.forest.ForestClassifier 在计算 oob_score 且 X 为 sparse.csc_matrix 时的错误。作者：Ankur Ankan。
所有回归器现在都能一致地处理并警告给定形状为 (n_samples, 1) 的 y。作者：Andreas Müller 和 Henry Lin。（#5431）
修复了 cluster.KMeans 在稀疏输入下的聚类重新分配错误。作者：Lars Buitinck。
修复了 discriminant_analysis.LinearDiscriminantAnalysis 中的一个错误，该错误在使用收缩时可能导致协方差矩阵不对称。作者：Martin Billinger。
修复了 cross_validation.cross_val_predict 在估计器具有稀疏预测时的错误。作者：Buddha Prakash。
修复了 linear_model.LogisticRegression 的 predict_proba 方法，以使用 soft-max 而不是 one-vs-rest 归一化。作者：Manoj Kumar。（#5182）
修复了在调用 partial_fit 方法时 linear_model.SGDClassifier 中 average=True 时的错误。作者：Andrew Lamb。（#5282）
数据集获取器在 Python 2 和 Python 3 下使用不同的文件名，以避免 pickle 兼容性问题。作者：Olivier Grisel。（#5355）
修复了 naive_bayes.GaussianNB 中的一个错误，该错误导致分类结果依赖于比例。作者：Jake Vanderplas。
暂时修复了 linear_model.Ridge，在稀疏数据情况下拟合截距时出现不正确。在这种情况下，修复会自动将求解器更改为 'sag'。#5360 作者：Tom Dupre la Tour。
修复了 decomposition.RandomizedPCA 在具有大量特征而样本较少的数据上的性能错误。（#4478）作者：Andreas Müller、Loic Esteve 和 Giorgio Patrini。
修复了 cross_decomposition.PLS 中导致不稳定和依赖于平台的输出，并且在 fit_transform 失败的错误。作者：Arthur Mensch。
修复了用于存储数据集的 Bunch 类。
修复了 ensemble.plot_partial_dependence 忽略 percentiles 参数的错误。
在 CountVectorizer 中提供 set 作为词汇表不再导致 pickle 时出现不一致的结果。
修复了 linear_model.LinearRegression、linear_model.OrthogonalMatchingPursuit、linear_model.Lasso 和 linear_model.ElasticNet 中何时需要重新计算预计算 Gram 矩阵的条件。
修复了坐标下降求解器中不一致的内存布局，该问题影响了 linear_model.DictionaryLearning 和 covariance.GraphLasso。（#5337）作者：Olivier Grisel。
manifold.LocallyLinearEmbedding 不再忽略 reg 参数。
具有自定义距离指标的 Nearest Neighbor 估计器现在可以进行 pickle。（#4362）
修复了 pipeline.FeatureUnion 中的一个错误，该错误在执行网格搜索时未正确处理 transformer_weights。
修复了 linear_model.LogisticRegression 和 linear_model.LogisticRegressionCV 在使用 class_weight='balanced' 或 class_weight='auto' 时的错误。作者：Tom Dupre la Tour。
修复了 #5495 中执行 OVR(SVC(decision_function_shape=”ovr”)) 时的错误。作者：Elvis Dohmatob。

API 更改摘要#

preprocessing.MinMaxScaler 中的属性 data_min、data_max 和 data_range 已弃用，并且从 0.19 开始将不可用。相反，该类现在公开了 data_min_、data_max_ 和 data_range_。作者：Giorgio Patrini。
所有 Scaler 类现在都有一个 scale_ 属性，即其 transform 方法应用的特征级重新缩放。 preprocessing.StandardScaler 中的旧属性 std_ 已弃用并由 scale_ 取代；它将在 0.19 中不可用。作者：Giorgio Patrini。
svm.SVC 和 svm.NuSVC 现在有一个 decision_function_shape 参数，通过设置 decision_function_shape='ovr' 使其决策函数的形状为 (n_samples, n_classes)。这将是 0.19 开始的默认行为。作者：Andreas Müller。
将 1D 数据数组作为输入传递给估计器现已弃用，因为它导致对数组元素应解释为特征还是样本产生混淆。现在所有数据数组都应明确形状为 (n_samples, n_features)。作者：Vighnesh Birodkar。
lda.LDA 和 qda.QDA 已移至 discriminant_analysis.LinearDiscriminantAnalysis 和 discriminant_analysis.QuadraticDiscriminantAnalysis。
在 discriminant_analysis.LinearDiscriminantAnalysis 中，store_covariance 和 tol 参数已从拟合方法移至构造函数；在 discriminant_analysis.QuadraticDiscriminantAnalysis 中，store_covariances 和 tol 参数已从拟合方法移至构造函数。
继承自 _LearntSelectorMixin 的模型将不再支持 transform 方法。（即 RandomForests、GradientBoosting、LogisticRegression、DecisionTrees、SVMs 和 SGD 相关模型）。将这些模型包装在元转换器 feature_selection.SelectFromModel 周围，以删除低于特定阈值值的特征（根据 coefs_ 或 feature_importances_）。
cluster.KMeans 在未收敛的情况下重新运行聚类分配，以确保 predict(X) 和 labels_ 的一致性。作者：Vighnesh Birodkar。
分类器和回归器模型现在使用 _estimator_type 属性进行标记。
交叉验证迭代器始终提供训练集和测试集的索引，而不是布尔掩码。
所有回归器上的 decision_function 已弃用，并将在 0.19 中删除。请改用 predict。
datasets.load_lfw_pairs 已弃用，并将在 0.19 中删除。请改用 datasets.fetch_lfw_pairs。
已删除已弃用的 hmm 模块。
已删除已弃用的 Bootstrap 交叉验证迭代器。
已删除已弃用的 Ward 和 WardAgglomerative 类。请改用 cluster.AgglomerativeClustering。
cross_validation.check_cv 现在是一个公共函数。
linear_model.LinearRegression 的属性 residues_ 已弃用，并将在 0.19 中删除。
linear_model.LinearRegression 的已弃用参数 n_jobs 已移至构造函数。
已从 linear_model.SGDClassifier 的 fit 方法中删除了已弃用的 class_weight 参数。请改用构造函数参数。
已删除对序列的序列（或列表的列表）多标签格式的已弃用支持。要转换到和转换来自受支持的二进制指示符矩阵格式，请使用 MultiLabelBinarizer。
调用 Pipeline.pipeline 的 inverse_transform 方法的行为将在 0.19 中更改。它将不再将一维输入重塑为二维输入。
preprocessing.LabelBinarizer 的已弃用属性 indicator_matrix_、multilabel_ 和 classes_ 已删除。
在 svm.SVC 和 svm.SVR 中使用 gamma=0 自动将 gamma 设置为 1. / n_features 已弃用，并将在 0.19 中删除。请改用 gamma="auto"。

代码贡献者#

Aaron Schumacher, Adithya Ganesh, akitty, Alexandre Gramfort, Alexey Grigorev, Ali Baharev, Allen Riddell, Ando Saabas, Andreas Mueller, Andrew Lamb, Anish Shah, Ankur Ankan, Anthony Erlinger, Ari Rouvinen, Arnaud Joly, Arnaud Rachez, Arthur Mensch, banilo, Barmaley.exe, benjaminirving, Boyuan Deng, Brett Naul, Brian McFee, Buddha Prakash, Chi Zhang, Chih-Wei Chang, Christof Angermueller, Christoph Gohlke, Christophe Bourguignat, Christopher Erick Moody, Chyi-Kwei Yau, Cindy Sridharan, CJ Carey, Clyde-fare, Cory Lorenz, Dan Blanchard, Daniel Galvez, Daniel Kronovet, Danny Sullivan, Data1010, David, David D Lowe, David Dotson, djipey, Dmitry Spikhalskiy, Donne Martin, Dougal J. Sutherland, Dougal Sutherland, edson duarte, Eduardo Caro, Eric Larson, Eric Martin, Erich Schubert, Fernando Carrillo, Frank C. Eckert, Frank Zalkow, Gael Varoquaux, Ganiev Ibraim, Gilles Louppe, Giorgio Patrini, giorgiop, Graham Clenaghan, Gryllos Prokopis, gwulfs, Henry Lin, Hsuan-Tien Lin, Immanuel Bayer, Ishank Gulati, Jack Martin, Jacob Schreiber, Jaidev Deshpande, Jake Vanderplas, Jan Hendrik Metzen, Jean Kossaifi, Jeffrey04, Jeremy, jfraj, Jiali Mei, Joe Jevnik, Joel Nothman, John Kirkham, John Wittenauer, Joseph, Joshua Loyal, Jungkook Park, KamalakerDadi, Kashif Rasul, Keith Goodman, Kian Ho, Konstantin Shmelkov, Kyler Brown, Lars Buitinck, Lilian Besson, Loic Esteve, Louis Tiao, maheshakya, Maheshakya Wijewardena, Manoj Kumar, MarkTab marktab.net, Martin Ku, Martin Spacek, MartinBpr, martinosorb, MaryanMorel, Masafumi Oyamada, Mathieu Blondel, Matt Krump, Matti Lyra, Maxim Kolganov, mbillinger, mhg, Michael Heilman, Michael Patterson, Miroslav Batchkarov, Nelle Varoquaux, Nicolas, Nikolay Mayorov, Olivier Grisel, Omer Katz, Óscar Nájera, Pauli Virtanen, Peter Fischer, Peter Prettenhofer, Phil Roth, pianomania, Preston Parry, Raghav RV, Rob Zinkov, Robert Layton, Rohan Ramanath, Saket Choudhary, Sam Zhang, santi, saurabh.bansod, scls19fr, Sebastian Raschka, Sebastian Saeger, Shivan Sornarajah, SimonPL, sinhrks, Skipper Seabold, Sonny Hu, sseg, Stephen Hoover, Steven De Gryze, Steven Seguin, Theodore Vasiloudis, Thomas Unterthiner, Tiago Freitas Pereira, Tian Wang, Tim Head, Timothy Hopper, tokoroten, Tom Dupré la Tour, Trevor Stephens, Valentin Stolbunov, Vighnesh Birodkar, Vinayak Mehta, Vincent, Vincent Michel, vstolbunov, wangz10, Wei Xue, Yucheng Low, Yury Zhauniarovich, Zac Stewart, zhai_pro, Zichen Wang

版本 0.17#

版本 0.17.1#

更新日志#

错误修复#

版本 0.17#

更新日志#

新功能#

增强功能#

错误修复#

API 更改摘要#

代码贡献者#

本页