版本 0.13#

版本 0.13.1#

2013年2月23日

0.13.1 版本仅修复了一些错误，未添加任何新功能。

更新日志#

修复了由 cross_validation.train_test_split 函数被 Yaroslav Halchenko 误解为测试导致的测试错误。
修复了由 Gael Varoquaux 在 cluster.MiniBatchKMeans 中小簇重新分配的错误。
修复了由 Lars Buitinck 在 decomposition.KernelPCA 中 gamma 的默认值错误。
由 Gael Varoquaux 将 joblib 更新到 0.7.0d。
修复了由 Peter Prettenhofer 在 ensemble.GradientBoostingClassifier 中偏差缩放的错误。
由 Andreas Müller 改进了 multiclass.OneVsOneClassifier 中的平局处理。
对测试和文档的其他小改进。

贡献者#

0.13.1 版本贡献者列表（按提交次数排序）。

16 Lars Buitinck
12 Andreas Müller
8 Gael Varoquaux
5 Robert Marchman
3 Peter Prettenhofer
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Gilles Louppe
1 Mathieu Blondel
1 Nelle Varoquaux
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
1 Vlad Niculae
1 Yaroslav Halchenko

版本 0.13#

2013年1月21日

新估计器类#

dummy.DummyClassifier 和 dummy.DummyRegressor，由 Mathieu Blondel 实现的两个数据无关的预测器。用于对你的估计器进行健全性检查。请参阅用户指南中的Dummy estimators。多输出支持由 Arnaud Joly 添加。
decomposition.FactorAnalysis，由 Christian Osendorfer 和 Alexandre Gramfort 实现的经典因子分析转换器。请参阅用户指南中的因子分析。
feature_extraction.FeatureHasher，一个由 Lars Buitinck 实现的“哈希技巧”转换器，用于从字符串字段中快速、低内存地提取特征，以及由 Olivier Grisel 实现的用于文本文档的 feature_extraction.text.HashingVectorizer。请参阅特征哈希和使用哈希技巧向量化大型文本语料库以获取文档和示例用法。
pipeline.FeatureUnion，由 Andreas Müller 实现的一个转换器，用于连接其他多个转换器的结果。请参阅用户指南中的FeatureUnion：复合特征空间。
random_projection.GaussianRandomProjection、random_projection.SparseRandomProjection 以及函数 random_projection.johnson_lindenstrauss_min_dim。前两者是由 Olivier Grisel 和 Arnaud Joly 实现的高斯和稀疏随机投影矩阵的转换器。请参阅用户指南中的随机投影。
kernel_approximation.Nystroem，由 Andreas Müller 实现的用于近似任意核的转换器。请参阅用户指南中的Nystroem 核近似方法。
preprocessing.OneHotEncoder，由 Andreas Müller 实现的用于计算分类特征二进制编码的转换器。请参阅用户指南中的分类特征编码。
linear_model.PassiveAggressiveClassifier 和 linear_model.PassiveAggressiveRegressor，由 Rob Zinkov 和 Mathieu Blondel 实现的用于线性模型的有效随机优化预测器。请参阅用户指南中的被动攻击算法。
ensemble.RandomTreesEmbedding，由 Andreas Müller 实现的转换器，用于使用完全随机树的集成创建高维稀疏表示。请参阅用户指南中的完全随机树嵌入。
manifold.SpectralEmbedding 和函数 manifold.spectral_embedding，由 Wei Li 实现的用于非线性降维的“拉普拉斯特征映射”转换。请参阅用户指南中的谱嵌入。
由 Fabian Pedregosa、Alexandre Gramfort 和 Nelle Varoquaux 实现的 isotonic.IsotonicRegression，

更新日志#

metrics.zero_one_loss（前身为 metrics.zero_one）现在有一个选项用于归一化输出，该选项报告错误分类的比例，而不是错误分类的原始数量。由 Kyle Beauchamp 实现。
tree.DecisionTreeClassifier 以及所有派生的集成模型现在支持样本加权，由 Noel Dawe 和 Gilles Louppe 实现。
在使用随机树森林中的自助样本时，速度得到改进，由 Peter Prettenhofer 和 Gilles Louppe 实现。
由 Peter Prettenhofer 在 ensemble.partial_dependence.partial_dependence 中为梯度提升树添加了部分依赖图。有关示例，请参阅部分依赖和个体条件期望图。
网站上的目录现在已由 Jaques Grobler 实现可展开。
feature_selection.SelectPercentile 现在确定性地处理平局，而不是返回所有同等排名的特征。
feature_selection.SelectKBest 和 feature_selection.SelectPercentile 在数值上更稳定，因为它们使用分数而不是 p 值来对结果进行排名。这意味着它们有时可能会选择与之前不同的特征。
由 Lars Buitinck 和 Fabian Pedregosa 改进，使用 sparse_cg 求解器进行岭回归和岭分类拟合不再具有二次内存复杂度。
由 Mathieu Blondel 改进，岭回归和岭分类现在支持一种名为 lsqr 的新快速求解器。
由 Conrad Lee 改进，metrics.precision_recall_curve 速度提升。
由 Fabian Pedregosa 改进，在 datasets.dump_svmlight_file 和 datasets.load_svmlight_file 中添加了对读取/写入带有成对偏好属性（svmlight 文件格式中的 qid）的 svmlight 文件的支持。
由 Wei Li 改进，metrics.confusion_matrix 和聚类性能评估更快、更稳健。
由 Andreas Müller 改进，cross_validation.cross_val_score 现在可以与预计算的核和相似性矩阵一起使用。
由 Gael Varoquaux 改进，LARS 算法通过启发式方法使其数值更稳定，可以丢弃相关性过高的回归器，并在数值噪声占主导时停止路径。
由 Conrad Lee 改进，metrics.precision_recall_curve 的实现速度更快。
由 Andreas Müller 实现了新的核 metrics.chi2_kernel，常用于计算机视觉应用。
Shaun Jackman 修复了 naive_bayes.BernoulliNB 中一个长期存在的错误。
由 Andrew Winterman 在 multiclass.OneVsRestClassifier 中实现了 predict_proba。
由 Arnaud Joly 改进了梯度提升的一致性：估计器 ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 使用估计器 tree.DecisionTreeRegressor 而不是 tree._tree.Tree 数据结构。
Seberg 修复了决策树模块中的浮点异常。
Wei Li 修复了当 y_true 只有一类时 metrics.roc_curve 失败的问题。
添加了计算平均绝对误差的 metrics.mean_absolute_error 函数。由 Arnaud Joly 改进，metrics.mean_squared_error、metrics.mean_absolute_error 和 metrics.r2_score 指标支持多输出。
由 Andreas Müller 修复了 svm.LinearSVC 和 linear_model.LogisticRegression 中 class_weight 的支持。早期版本中，class_weight 的含义被颠倒了，错误地将较高的权重解释为给定类的正样本更少。
由 Arnaud Joly 改进了 sklearn.metrics 中回归和分类指标的叙述性文档和一致性。
由 Xinfan Meng 和 Andreas Müller 修复了 sklearn.svm.SVC 在使用未排序索引的 CSR 矩阵时的一个错误。
cluster.MiniBatchKMeans：由 Gael Varoquaux 添加了对附带少量观测值的聚类中心进行随机重新分配的功能。

API 更改摘要#

为保持一致性，将所有 n_atoms 的出现重命名为 n_components。这适用于 decomposition.DictionaryLearning、decomposition.MiniBatchDictionaryLearning、decomposition.dict_learning、decomposition.dict_learning_online。
为保持一致性，将所有 max_iters 的出现重命名为 max_iter。这适用于 semi_supervised.LabelPropagation 和 semi_supervised.label_propagation.LabelSpreading。
为保持一致性，将 ensemble.BaseGradientBoosting 和 ensemble.GradientBoostingRegressor 中所有 learn_rate 的出现重命名为 learning_rate。
模块 sklearn.linear_model.sparse 已移除。稀疏矩阵支持已集成到“常规”线性模型中。
已移除错误返回累积误差的 sklearn.metrics.mean_square_error。请改用 metrics.mean_squared_error。
不再支持将 class_weight 参数传递给 fit 方法。请改为将它们传递给估计器构造函数。
GMM 不再具有 decode 和 rvs 方法。请改用 score、predict 或 sample 方法。
岭回归和分类中的 solver 拟合选项现已弃用，并将在 v0.14 中移除。请改用构造函数选项。
feature_extraction.text.DictVectorizer 现在以 CSR 格式而不是 COO 格式返回稀疏矩阵。
将 cross_validation.KFold 和 cross_validation.StratifiedKFold 中的 k 重命名为 n_folds，将 cross_validation.Bootstrap 中的 n_bootstraps 重命名为 n_iter。
为保持一致性，将所有 n_iterations 的出现重命名为 n_iter。这适用于 cross_validation.ShuffleSplit、cross_validation.StratifiedShuffleSplit、utils.extmath.randomized_range_finder 和 utils.extmath.randomized_svd。
将 linear_model.ElasticNet 和 linear_model.SGDClassifier 中的 rho 替换为 l1_ratio。rho 参数的含义不同；引入 l1_ratio 以避免混淆。它与之前 linear_model.ElasticNet 中的 rho 以及 linear_model.SGDClassifier 中的 (1-rho) 含义相同。
linear_model.LassoLars 和 linear_model.Lars 现在在多目标情况下存储路径列表，而不是路径数组。
为了更严格地遵循 API，hmm.GMMHMM 的属性 gmm 已重命名为 gmm_。
cluster.spectral_embedding 已移至 manifold.spectral_embedding。
将 manifold.spectral_embedding 和 cluster.SpectralClustering 中的 eig_tol 重命名为 eigen_tol，将 mode 重命名为 eigen_solver。
将 manifold.spectral_embedding 和 cluster.SpectralClustering 中的 mode 重命名为 eigen_solver。
tree.DecisionTreeClassifier 和所有派生的集成模型的 classes_ 和 n_classes_ 属性在单输出问题中是扁平的，在多输出问题中是嵌套的。
ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 的 estimators_ 属性现在是 tree.DecisionTreeRegressor 的数组。
为保持一致性，将 decomposition.MiniBatchDictionaryLearning 和 decomposition.MiniBatchSparsePCA 中的 chunk_size 重命名为 batch_size。
svm.SVC 和 svm.NuSVC 现在提供了 classes_ 属性，并支持标签 y 的任意 dtype。此外，predict 返回的 dtype 现在反映了 fit 期间 y 的 dtype（以前是 np.float）。
将 cross_validation.train_test_split 中的默认 test_size 更改为 None，在 cross_validation.ShuffleSplit 和 cross_validation.StratifiedShuffleSplit 中添加了从 train_size 推断 test_size 的可能性。
将函数 sklearn.metrics.zero_one 重命名为 sklearn.metrics.zero_one_loss。请注意，sklearn.metrics.zero_one_loss 中的默认行为与 sklearn.metrics.zero_one 不同：normalize=False 已更改为 normalize=True。
将函数 metrics.zero_one_score 重命名为 metrics.accuracy_score。
datasets.make_circles 现在具有相同数量的内外点。
在朴素贝叶斯分类器中，class_prior 参数已从 fit 移至 __init__。

贡献者#

0.13 版本贡献者列表（按提交次数排序）。

364 Andreas Müller
143 Arnaud Joly
137 Peter Prettenhofer
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
54 Gilles Louppe
40 Jaques Grobler
38 Alexandre Gramfort
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Fabian Pedregosa
17 Nelle Varoquaux
16 Christian Osendorfer
14 Daniel Nouri
13 Virgile Fritsch
13 syhw
12 Satrajit Ghosh
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
8 James Bergstra
7 Tadej Janež
6 Brian Cajes
6 Jake Vanderplas
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
4 Robert Layton
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Alexandre Passos
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006

版本 0.13#

版本 0.13.1#

更新日志#

贡献者#

版本 0.13#

新估计器类#

更新日志#

API 更改摘要#

贡献者#

本页