版本 0.13#
版本 0.13.1#
2013年2月23日
0.13.1 版本只修复了一些 bug,没有添加任何新功能。
变更日志#
修复了由函数
cross_validation.train_test_split
被Yaroslav Halchenko解释为测试导致的测试错误。修复了
cluster.MiniBatchKMeans
中小型集群重新分配的错误,由Gael Varoquaux修复。由Lars Buitinck修复了
decomposition.KernelPCA
中gamma
的默认值。由Gael Varoquaux将 joblib 更新到
0.7.0d
。由Peter Prettenhofer修复了
ensemble.GradientBoostingClassifier
中偏差的缩放。由Andreas Müller改进了
multiclass.OneVsOneClassifier
中的平局打破机制。对测试和文档的其他一些小改进。
人员#
按提交次数列出 0.13.1 版本的贡献者。
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
版本 0.13#
2013年1月21日
新的估计器类#
dummy.DummyClassifier
和dummy.DummyRegressor
,两个由Mathieu Blondel提供的与数据无关的预测器。用于检查估计器的正确性。请参阅用户指南中的虚拟估计器。多输出支持由Arnaud Joly添加。decomposition.FactorAnalysis
,一个由Christian Osendorfer和Alexandre Gramfort实现经典因子分析的转换器。请参阅用户指南中的因子分析。feature_extraction.FeatureHasher
,一个由Lars Buitinck实现的转换器,用于从字符串字段快速、低内存地提取特征的“哈希技巧”,以及由Olivier Grisel为文本文档提供的feature_extraction.text.HashingVectorizer
。请参阅文档和示例用法中的特征哈希和使用哈希技巧向量化大型文本语料库。pipeline.FeatureUnion
,一个由Andreas Müller提供的转换器,用于连接其他几个转换器的结果。请参阅用户指南中的FeatureUnion:组合特征空间。random_projection.GaussianRandomProjection
,random_projection.SparseRandomProjection
和函数random_projection.johnson_lindenstrauss_min_dim
。前两个是由Olivier Grisel和Arnaud Joly实现高斯和稀疏随机投影矩阵的转换器。请参阅用户指南中的随机投影。kernel_approximation.Nystroem
,一个由Andreas Müller提供的用于逼近任意核的转换器。请参阅用户指南中的Nystroem 方法用于核逼近。Andreas Müller 提供的
preprocessing.OneHotEncoder
,一个通过计算分类特征的二元编码的转换器。参见用户指南中的 编码分类特征。Rob Zinkov 和 Mathieu Blondel 提供的
linear_model.PassiveAggressiveClassifier
和linear_model.PassiveAggressiveRegressor
,实现了线性模型的高效随机优化的预测器。参见用户指南中的 被动攻击算法。Andreas Müller 提供的
ensemble.RandomTreesEmbedding
,一个使用完全随机树集成创建高维稀疏表示的转换器。参见用户指南中的 完全随机树嵌入。Wei Li 提供的
manifold.SpectralEmbedding
和函数manifold.spectral_embedding
,实现了用于非线性降维的“拉普拉斯特征映射”变换。参见用户指南中的 谱嵌入。Fabian Pedregosa、Alexandre Gramfort 和 Nelle Varoquaux 提供的
isotonic.IsotonicRegression
。
变更日志#
Kyle Beauchamp 提供的
metrics.zero_one_loss
(以前为metrics.zero_one
)现在具有归一化输出选项,该选项报告误分类的比例,而不是误分类的原始数量。Noel Dawe 和 Gilles Louppe 提供的
tree.DecisionTreeClassifier
和所有派生的集成模型现在支持样本加权。Peter Prettenhofer 和 Gilles Louppe 提供的在使用随机树森林的 bootstrap 样本时的速度改进。
Peter Prettenhofer 提供的
ensemble.partial_dependence.partial_dependence
中的 梯度提升树 的偏依赖图。参见 偏依赖和个体条件期望图 以了解示例。Jaques Grobler 提供的网站上的目录现在可以展开。
feature_selection.SelectPercentile
现在确定性地打破平局,而不是返回所有排名相同的特征。feature_selection.SelectKBest
和feature_selection.SelectPercentile
更加数值稳定,因为它们使用分数而不是 p 值来对结果进行排名。这意味着它们有时可能会选择与以前不同的特征。Lars Buitinck 和 Fabian Pedregosa 提供的,使用
sparse_cg
求解器的岭回归和岭分类拟合不再具有二次内存复杂度。Mathieu Blondel 提供的岭回归和岭分类现在支持一个名为
lsqr
的新的快速求解器。Conrad Lee 提供的
metrics.precision_recall_curve
的速度提升。Fabian Pedregosa 提供的,在
datasets.dump_svmlight_file
和datasets.load_svmlight_file
中添加了对使用成对偏好属性(svmlight 文件格式中的 qid)的 svmlight 文件的读写支持。Wei Li 提供的更快且更强大的
metrics.confusion_matrix
和 聚类性能评估。Andreas Müller 提供的
cross_validation.cross_val_score
现在可以使用预计算的核和亲和矩阵。Gael Varoquaux 提供的,LARS 算法通过启发式方法来丢弃相关性过高的回归器以及在数值噪声变得主导时停止路径,使其更加数值稳定。
Conrad Lee 提供的
metrics.precision_recall_curve
的更快实现。Andreas Müller 提供的新内核
metrics.chi2_kernel
,通常用于计算机视觉应用程序。Shaun Jackman 修复了
naive_bayes.BernoulliNB
中长期存在的 bug。Andrew Winterman 提供的在
multiclass.OneVsRestClassifier
中实现的predict_proba
。提升梯度提升算法的一致性:估计器
ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
使用估计器tree.DecisionTreeRegressor
代替 Arnaud Joly 提出的tree._tree.Tree
数据结构。修复了由 Seberg 发现的 决策树 模块中的浮点数异常。
修复了由 Wei Li 发现的当 y_true 只有一个类别时
metrics.roc_curve
失败的问题。添加了计算平均绝对误差的
metrics.mean_absolute_error
函数。由 Arnaud Joly 实现,metrics.mean_squared_error
,metrics.mean_absolute_error
和metrics.r2_score
现在支持多输出。修复了由 Andreas Müller 发现的
svm.LinearSVC
和linear_model.LogisticRegression
中class_weight
的支持问题。先前版本中class_weight
的含义被反转,错误地将更高的权重表示为给定类别中较少的正例。由 Arnaud Joly 提升了
sklearn.metrics
中回归和分类指标的叙述性文档和一致性。修复了由 Xinfan Meng 和 Andreas Müller 发现的当使用索引未排序的 csr 矩阵时
sklearn.svm.SVC
中的 bug。cluster.MiniBatchKMeans
:由 Gael Varoquaux 添加了对附加观测值较少的聚类中心的随机重新分配。
API 变更概要#
为了保持一致性,将所有
n_atoms
的出现都重命名为n_components
。这适用于decomposition.DictionaryLearning
,decomposition.MiniBatchDictionaryLearning
,decomposition.dict_learning
,decomposition.dict_learning_online
。为了保持一致性,将所有
max_iters
的出现都重命名为max_iter
。这适用于semi_supervised.LabelPropagation
和semi_supervised.label_propagation.LabelSpreading
。为了保持
ensemble.BaseGradientBoosting
和ensemble.GradientBoostingRegressor
的一致性,将所有learn_rate
的出现都重命名为learning_rate
。sklearn.linear_model.sparse
模块已被移除。稀疏矩阵支持已集成到“常规”线性模型中。已移除错误地返回累积误差的
sklearn.metrics.mean_square_error
。请改用metrics.mean_squared_error
。不再支持向
fit
方法传递class_weight
参数。请改为将其传递给估计器构造函数。GMM 模型不再具有
decode
和rvs
方法。请改用score
、predict
或sample
方法。岭回归和分类中的
solver
拟合选项现已弃用,并将在 v0.14 中移除。请改用构造函数选项。feature_extraction.text.DictVectorizer
现在返回 CSR 格式的稀疏矩阵,而不是 COO 格式。将
cross_validation.KFold
和cross_validation.StratifiedKFold
中的k
重命名为n_folds
,将cross_validation.Bootstrap
中的n_bootstraps
重命名为n_iter
。为保持一致性,将所有
n_iterations
的出现都重命名为n_iter
。这适用于cross_validation.ShuffleSplit
、cross_validation.StratifiedShuffleSplit
、utils.extmath.randomized_range_finder
和utils.extmath.randomized_svd
。将
linear_model.ElasticNet
和linear_model.SGDClassifier
中的rho
替换为l1_ratio
。rho
参数具有不同的含义;引入l1_ratio
是为了避免混淆。它的含义与之前linear_model.ElasticNet
中的rho
相同,以及linear_model.SGDClassifier
中的(1-rho)
相同。linear_model.LassoLars
和linear_model.Lars
现在在多个目标的情况下存储路径列表,而不是路径数组。hmm.GMMHMM
的属性gmm
已重命名为gmm_
,以更严格地遵守API。cluster.spectral_embedding
已移动到manifold.spectral_embedding
。将
manifold.spectral_embedding
、cluster.SpectralClustering
中的eig_tol
重命名为eigen_tol
,将mode
重命名为eigen_solver
。将
manifold.spectral_embedding
和cluster.SpectralClustering
中的mode
重命名为eigen_solver
。tree.DecisionTreeClassifier
及其所有派生集成模型的classes_
和n_classes_
属性现在在单输出问题情况下是扁平的,在多输出问题情况下是嵌套的。ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
的estimators_
属性现在是一个tree.DecisionTreeRegressor
数组。为保持一致性,将
decomposition.MiniBatchDictionaryLearning
和decomposition.MiniBatchSparsePCA
中的chunk_size
重命名为batch_size
。svm.SVC
和svm.NuSVC
现在提供classes_
属性,并支持标签y
的任意dtype。此外,predict
返回的dtype现在反映了fit
期间y
的dtype(以前是np.float
)。将
cross_validation.train_test_split
中的默认test_size
更改为None,在cross_validation.ShuffleSplit
和cross_validation.StratifiedShuffleSplit
中增加了从train_size
推断test_size
的可能性。将函数
sklearn.metrics.zero_one
重命名为sklearn.metrics.zero_one_loss
。请注意,sklearn.metrics.zero_one_loss
的默认行为与sklearn.metrics.zero_one
不同:normalize=False
已更改为normalize=True
。将函数
metrics.zero_one_score
重命名为metrics.accuracy_score
。datasets.make_circles
现在具有相同数量的内点和外点。在朴素贝叶斯分类器中,
class_prior
参数已从fit
方法移动到__init__
方法。
贡献者#
按提交次数统计的 0.13 版本贡献者列表。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 李伟 (Wei Li)
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 杜石桥 (Shiqiao Du)
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 孟鑫凡 (Xinfan Meng)
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006