版本 0.13#
版本 0.13.1#
2013 年 2 月 23 日
0.13.1 版本仅修复了一些 bug,没有增加任何新功能。
更新日志#
修复了因
cross_validation.train_test_split函数被 Yaroslav Halchenko 误判为测试而引起的测试错误。修复了 Gael Varoquaux 在
cluster.MiniBatchKMeans中对小簇的重新分配的 bug。修复了 Lars Buitinck 在
decomposition.KernelPCA中gamma的默认值。Gael Varoquaux 将 joblib 更新至
0.7.0d。修复了 Peter Prettenhofer 在
ensemble.GradientBoostingClassifier中偏差的缩放。Andreas Müller 在
multiclass.OneVsOneClassifier中实现了更好的平局处理。对测试和文档进行了其他小的改进。
贡献者#
0.13.1 版本贡献者列表(按提交次数排序)。
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
版本 0.13#
2013 年 1 月 21 日
新的估计器类#
dummy.DummyClassifier和dummy.DummyRegressor,由 Mathieu Blondel 实现的两个与数据无关的预测器。可用于对您的估计器进行健全性检查。用户指南中的Dummy estimators。由 Arnaud Joly 添加了多输出支持。由 Christian Osendorfer 和 Alexandre Gramfort 实现的实现经典因子分析的转换器
decomposition.FactorAnalysis。用户指南中的Factor Analysis。由 Lars Buitinck 实现的用于从字符串字段快速、低内存地提取特征的“哈希技巧”的转换器
feature_extraction.FeatureHasher,以及由 Olivier Grisel 为文本文档实现的feature_extraction.text.HashingVectorizer。请参阅文档和示例用法中的Feature hashing 和 Vectorizing a large text corpus with the hashing trick。由 Andreas Müller 实现的转换器
pipeline.FeatureUnion,用于连接多个其他转换器的结果。用户指南中的FeatureUnion: composite feature spaces。由 Olivier Grisel 和 Arnaud Joly 实现的实现高斯和稀疏随机投影矩阵的转换器
random_projection.GaussianRandomProjection、random_projection.SparseRandomProjection以及函数random_projection.johnson_lindenstrauss_min_dim。用户指南中的Random Projection。由 Andreas Müller 实现的用于近似任意核的转换器
kernel_approximation.Nystroem。用户指南中的Nystroem Method for Kernel Approximation。由 Andreas Müller 实现的转换器
preprocessing.OneHotEncoder,用于计算分类特征的二元编码。用户指南中的Encoding categorical features。由 Rob Zinkov 和 Mathieu Blondel 实现的实现线性模型高效随机优化的预测器
linear_model.PassiveAggressiveClassifier和linear_model.PassiveAggressiveRegressor。用户指南中的Passive Aggressive Algorithms。由 Andreas Müller 实现的转换器
ensemble.RandomTreesEmbedding,用于使用全随机树的集成创建高维稀疏表示。用户指南中的Totally Random Trees Embedding。由 Wei Li 实现的实现“拉普拉斯特征图”变换以进行非线性降维的
manifold.SpectralEmbedding和函数manifold.spectral_embedding。用户指南中的Spectral Embedding。由 Fabian Pedregosa、Alexandre Gramfort 和 Nelle Varoquaux 实现的
isotonic.IsotonicRegression,
更新日志#
由 Kyle Beauchamp 实现的
metrics.zero_one_loss(以前称为metrics.zero_one)现在有一个归一化输出的选项,报告的是误分类的比例,而不是误分类的原始数量。由 Noel Dawe 和 Gilles Louppe 实现的
tree.DecisionTreeClassifier和所有派生的集成模型现在都支持样本加权。由 Peter Prettenhofer 和 Gilles Louppe 实现的在随机树的森林中使用自举样本时的速度提升。
由 Peter Prettenhofer 在
ensemble.partial_dependence.partial_dependence中为Gradient-boosted trees 添加了部分依赖图。请参阅Partial Dependence and Individual Conditional Expectation Plots 的示例。由 Jaques Grobler 使网站上的目录变得可展开。
feature_selection.SelectPercentile现在以确定性方式打破平局,而不是返回所有排名相同的特征。feature_selection.SelectKBest和feature_selection.SelectPercentile由于使用分数而不是 p 值来对结果进行排名,因此在数值上更稳定。这意味着它们有时可能会选择与以前不同的特征。由 Lars Buitinck 和 Fabian Pedregosa 实现的,使用
sparse_cg求解器的岭回归和岭分类拟合不再具有二次内存复杂度。由 Mathieu Blondel 实现的岭回归和岭分类现在支持一种名为
lsqr的新快速求解器。Conrad Lee 加速了
metrics.precision_recall_curve。由 Fabian Pedregosa 在
datasets.dump_svmlight_file和datasets.load_svmlight_file中添加了使用成对偏好属性(svmlight 文件格式中的 qid)读/写 svmlight 文件的支持。由 Wei Li 实现的更快速、更鲁棒的
metrics.confusion_matrix和Clustering performance evaluation。由 Andreas Müller 实现的
cross_validation.cross_val_score现在可以处理预先计算的核和亲和力矩阵。由 Gael Varoquaux 实现的 LARS 算法通过启发式方法(丢弃高度相关的回归量以及在数值噪声占主导地位时停止路径)使其在数值上更加稳定。
Conrad Lee 加速了
metrics.precision_recall_curve的实现。由 Andreas Müller 添加的新核
metrics.chi2_kernel,常用于计算机视觉应用。Shaun Jackman 修复了
naive_bayes.BernoulliNB中长期存在的 bug。Andrew Winterman 在
multiclass.OneVsRestClassifier中实现了predict_proba。提高梯度提升的一致性:由 Arnaud Joly 实现的估计器
ensemble.GradientBoostingRegressor和ensemble.GradientBoostingClassifier使用tree.DecisionTreeRegressor估计器而不是tree._tree.Tree数据结构。Seberg 修复了decision trees 模块中的一个浮点异常。
Wei Li 修复了
metrics.roc_curve在 y_true 只有一个类时失败的问题。添加了计算平均绝对误差的函数
metrics.mean_absolute_error。由 Arnaud Joly 实现的metrics.mean_squared_error、metrics.mean_absolute_error和metrics.r2_score指标支持多输出。由 Andreas Müller 修复了
svm.LinearSVC和linear_model.LogisticRegression中的class_weight支持。之前class_weight的含义被错误地解释为更高的权重意味着给定类别的正例更少。由 Arnaud Joly 改进了
sklearn.metrics模块中回归和分类指标的叙述性文档和一致性。Xinfan Meng 和 Andreas Müller 修复了
sklearn.svm.SVC在使用具有未排序索引的 csr 矩阵时的 bug。cluster.MiniBatchKMeans:由 Gael Varoquaux 添加了对附加少量观测值的簇中心的随机重新分配。
API 更改摘要#
为了保持一致性,将
n_atoms重命名为n_components。这适用于decomposition.DictionaryLearning、decomposition.MiniBatchDictionaryLearning、decomposition.dict_learning、decomposition.dict_learning_online。为了保持一致性,将
max_iters重命名为max_iter。这适用于semi_supervised.LabelPropagation和semi_supervised.label_propagation.LabelSpreading。为了保持一致性,将
ensemble.BaseGradientBoosting和ensemble.GradientBoostingRegressor中的learn_rate重命名为learning_rate。sklearn.linear_model.sparse模块已移除。稀疏矩阵支持已集成到“常规”线性模型中。已移除
sklearn.metrics.mean_square_error,它错误地返回累积误差。请使用metrics.mean_squared_error。不再支持将
class_weight参数传递给fit方法。请将它们传递给估计器构造函数。GMM 不再具有
decode和rvs方法。请使用score、predict或sample方法。Ridge 回归和分类中的
solverfit 选项现在已弃用,将在 v0.14 中移除。请改用构造函数选项。feature_extraction.text.DictVectorizer现在返回 CSR 格式的稀疏矩阵,而不是 COO 格式。在
cross_validation.KFold和cross_validation.StratifiedKFold中,k已重命名为n_folds;在cross_validation.Bootstrap中,n_bootstraps已重命名为n_iter。为了保持一致性,已将所有
n_iterations重命名为n_iter。这适用于cross_validation.ShuffleSplit、cross_validation.StratifiedShuffleSplit、utils.extmath.randomized_range_finder和utils.extmath.randomized_svd。在
linear_model.ElasticNet和linear_model.SGDClassifier中,rho已被l1_ratio替换。rho参数的含义不同;引入l1_ratio是为了避免混淆。它具有与以前linear_model.ElasticNet中的rho和linear_model.SGDClassifier中的(1-rho)相同的含义。linear_model.LassoLars和linear_model.Lars现在存储一个路径列表以应对多目标情况,而不是一个路径数组。hmm.GMMHMM的gmm属性已重命名为gmm_,以更严格地遵守 API。cluster.spectral_embedding已移至manifold.spectral_embedding。在
manifold.spectral_embedding、cluster.SpectralClustering中,eig_tol已重命名为eigen_tol,mode已重命名为eigen_solver。在
manifold.spectral_embedding和cluster.SpectralClustering中,mode已重命名为eigen_solver。tree.DecisionTreeClassifier和所有派生集成模型的classes_和n_classes_属性在单输出问题时为扁平化,在多输出问题时为嵌套。ensemble.GradientBoostingRegressor和ensemble.GradientBoostingClassifier的estimators_属性现在是一个tree.DecisionTreeRegressor数组。为了保持一致性,在
decomposition.MiniBatchDictionaryLearning和decomposition.MiniBatchSparsePCA中,chunk_size已重命名为batch_size。svm.SVC和svm.NuSVC现在提供classes_属性,并支持标签y的任意 dtypes。此外,predict返回的 dtype 现在反映了fit期间y的 dtype(以前是np.float)。cross_validation.train_test_split中的默认 test_size 已更改为 None,并增加了在cross_validation.ShuffleSplit和cross_validation.StratifiedShuffleSplit中从train_size推断test_size的可能性。函数
sklearn.metrics.zero_one已重命名为sklearn.metrics.zero_one_loss。请注意,sklearn.metrics.zero_one_loss的默认行为与sklearn.metrics.zero_one不同:normalize=False已更改为normalize=True。函数
metrics.zero_one_score已重命名为metrics.accuracy_score。datasets.make_circles现在具有相同数量的内圆和外圆点。在朴素贝叶斯分类器中,
class_prior参数已从fit移至__init__。
人员#
0.13 版本贡献者列表(按提交次数排序)。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006