版本 0.13#
版本 0.13.1#
2013年2月23日
0.13.1 版本仅修复了一些错误,未添加任何新功能。
更新日志#
修复了由
cross_validation.train_test_split
函数被 Yaroslav Halchenko 误解为测试导致的测试错误。修复了由 Gael Varoquaux 在
cluster.MiniBatchKMeans
中小簇重新分配的错误。修复了由 Lars Buitinck 在
decomposition.KernelPCA
中gamma
的默认值错误。由 Gael Varoquaux 将 joblib 更新到
0.7.0d
。修复了由 Peter Prettenhofer 在
ensemble.GradientBoostingClassifier
中偏差缩放的错误。由 Andreas Müller 改进了
multiclass.OneVsOneClassifier
中的平局处理。对测试和文档的其他小改进。
贡献者#
0.13.1 版本贡献者列表(按提交次数排序)。
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
版本 0.13#
2013年1月21日
新估计器类#
dummy.DummyClassifier
和dummy.DummyRegressor
,由 Mathieu Blondel 实现的两个数据无关的预测器。用于对你的估计器进行健全性检查。请参阅用户指南中的Dummy estimators。多输出支持由 Arnaud Joly 添加。decomposition.FactorAnalysis
,由 Christian Osendorfer 和 Alexandre Gramfort 实现的经典因子分析转换器。请参阅用户指南中的因子分析。feature_extraction.FeatureHasher
,一个由 Lars Buitinck 实现的“哈希技巧”转换器,用于从字符串字段中快速、低内存地提取特征,以及由 Olivier Grisel 实现的用于文本文档的feature_extraction.text.HashingVectorizer
。请参阅特征哈希和使用哈希技巧向量化大型文本语料库以获取文档和示例用法。pipeline.FeatureUnion
,由 Andreas Müller 实现的一个转换器,用于连接其他多个转换器的结果。请参阅用户指南中的FeatureUnion:复合特征空间。random_projection.GaussianRandomProjection
、random_projection.SparseRandomProjection
以及函数random_projection.johnson_lindenstrauss_min_dim
。前两者是由 Olivier Grisel 和 Arnaud Joly 实现的高斯和稀疏随机投影矩阵的转换器。请参阅用户指南中的随机投影。kernel_approximation.Nystroem
,由 Andreas Müller 实现的用于近似任意核的转换器。请参阅用户指南中的Nystroem 核近似方法。preprocessing.OneHotEncoder
,由 Andreas Müller 实现的用于计算分类特征二进制编码的转换器。请参阅用户指南中的分类特征编码。linear_model.PassiveAggressiveClassifier
和linear_model.PassiveAggressiveRegressor
,由 Rob Zinkov 和 Mathieu Blondel 实现的用于线性模型的有效随机优化预测器。请参阅用户指南中的被动攻击算法。ensemble.RandomTreesEmbedding
,由 Andreas Müller 实现的转换器,用于使用完全随机树的集成创建高维稀疏表示。请参阅用户指南中的完全随机树嵌入。manifold.SpectralEmbedding
和函数manifold.spectral_embedding
,由 Wei Li 实现的用于非线性降维的“拉普拉斯特征映射”转换。请参阅用户指南中的谱嵌入。由 Fabian Pedregosa、Alexandre Gramfort 和 Nelle Varoquaux 实现的
isotonic.IsotonicRegression
,
更新日志#
metrics.zero_one_loss
(前身为metrics.zero_one
)现在有一个选项用于归一化输出,该选项报告错误分类的比例,而不是错误分类的原始数量。由 Kyle Beauchamp 实现。tree.DecisionTreeClassifier
以及所有派生的集成模型现在支持样本加权,由 Noel Dawe 和 Gilles Louppe 实现。在使用随机树森林中的自助样本时,速度得到改进,由 Peter Prettenhofer 和 Gilles Louppe 实现。
由 Peter Prettenhofer 在
ensemble.partial_dependence.partial_dependence
中为梯度提升树添加了部分依赖图。有关示例,请参阅部分依赖和个体条件期望图。网站上的目录现在已由 Jaques Grobler 实现可展开。
feature_selection.SelectPercentile
现在确定性地处理平局,而不是返回所有同等排名的特征。feature_selection.SelectKBest
和feature_selection.SelectPercentile
在数值上更稳定,因为它们使用分数而不是 p 值来对结果进行排名。这意味着它们有时可能会选择与之前不同的特征。由 Lars Buitinck 和 Fabian Pedregosa 改进,使用
sparse_cg
求解器进行岭回归和岭分类拟合不再具有二次内存复杂度。由 Mathieu Blondel 改进,岭回归和岭分类现在支持一种名为
lsqr
的新快速求解器。由 Conrad Lee 改进,
metrics.precision_recall_curve
速度提升。由 Fabian Pedregosa 改进,在
datasets.dump_svmlight_file
和datasets.load_svmlight_file
中添加了对读取/写入带有成对偏好属性(svmlight 文件格式中的 qid)的 svmlight 文件的支持。由 Wei Li 改进,
metrics.confusion_matrix
和 聚类性能评估 更快、更稳健。由 Andreas Müller 改进,
cross_validation.cross_val_score
现在可以与预计算的核和相似性矩阵一起使用。由 Gael Varoquaux 改进,LARS 算法通过启发式方法使其数值更稳定,可以丢弃相关性过高的回归器,并在数值噪声占主导时停止路径。
由 Conrad Lee 改进,
metrics.precision_recall_curve
的实现速度更快。由 Andreas Müller 实现了新的核
metrics.chi2_kernel
,常用于计算机视觉应用。Shaun Jackman 修复了
naive_bayes.BernoulliNB
中一个长期存在的错误。由 Andrew Winterman 在
multiclass.OneVsRestClassifier
中实现了predict_proba
。由 Arnaud Joly 改进了梯度提升的一致性:估计器
ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
使用估计器tree.DecisionTreeRegressor
而不是tree._tree.Tree
数据结构。Seberg 修复了决策树模块中的浮点异常。
Wei Li 修复了当 y_true 只有一类时
metrics.roc_curve
失败的问题。添加了计算平均绝对误差的
metrics.mean_absolute_error
函数。由 Arnaud Joly 改进,metrics.mean_squared_error
、metrics.mean_absolute_error
和metrics.r2_score
指标支持多输出。由 Andreas Müller 修复了
svm.LinearSVC
和linear_model.LogisticRegression
中class_weight
的支持。早期版本中,class_weight
的含义被颠倒了,错误地将较高的权重解释为给定类的正样本更少。由 Arnaud Joly 改进了
sklearn.metrics
中回归和分类指标的叙述性文档和一致性。由 Xinfan Meng 和 Andreas Müller 修复了
sklearn.svm.SVC
在使用未排序索引的 CSR 矩阵时的一个错误。cluster.MiniBatchKMeans
:由 Gael Varoquaux 添加了对附带少量观测值的聚类中心进行随机重新分配的功能。
API 更改摘要#
为保持一致性,将所有
n_atoms
的出现重命名为n_components
。这适用于decomposition.DictionaryLearning
、decomposition.MiniBatchDictionaryLearning
、decomposition.dict_learning
、decomposition.dict_learning_online
。为保持一致性,将所有
max_iters
的出现重命名为max_iter
。这适用于semi_supervised.LabelPropagation
和semi_supervised.label_propagation.LabelSpreading
。为保持一致性,将
ensemble.BaseGradientBoosting
和ensemble.GradientBoostingRegressor
中所有learn_rate
的出现重命名为learning_rate
。模块
sklearn.linear_model.sparse
已移除。稀疏矩阵支持已集成到“常规”线性模型中。已移除错误返回累积误差的
sklearn.metrics.mean_square_error
。请改用metrics.mean_squared_error
。不再支持将
class_weight
参数传递给fit
方法。请改为将它们传递给估计器构造函数。GMM 不再具有
decode
和rvs
方法。请改用score
、predict
或sample
方法。岭回归和分类中的
solver
拟合选项现已弃用,并将在 v0.14 中移除。请改用构造函数选项。feature_extraction.text.DictVectorizer
现在以 CSR 格式而不是 COO 格式返回稀疏矩阵。将
cross_validation.KFold
和cross_validation.StratifiedKFold
中的k
重命名为n_folds
,将cross_validation.Bootstrap
中的n_bootstraps
重命名为n_iter
。为保持一致性,将所有
n_iterations
的出现重命名为n_iter
。这适用于cross_validation.ShuffleSplit
、cross_validation.StratifiedShuffleSplit
、utils.extmath.randomized_range_finder
和utils.extmath.randomized_svd
。将
linear_model.ElasticNet
和linear_model.SGDClassifier
中的rho
替换为l1_ratio
。rho
参数的含义不同;引入l1_ratio
以避免混淆。它与之前linear_model.ElasticNet
中的rho
以及linear_model.SGDClassifier
中的(1-rho)
含义相同。linear_model.LassoLars
和linear_model.Lars
现在在多目标情况下存储路径列表,而不是路径数组。为了更严格地遵循 API,
hmm.GMMHMM
的属性gmm
已重命名为gmm_
。cluster.spectral_embedding
已移至manifold.spectral_embedding
。将
manifold.spectral_embedding
和cluster.SpectralClustering
中的eig_tol
重命名为eigen_tol
,将mode
重命名为eigen_solver
。将
manifold.spectral_embedding
和cluster.SpectralClustering
中的mode
重命名为eigen_solver
。tree.DecisionTreeClassifier
和所有派生的集成模型的classes_
和n_classes_
属性在单输出问题中是扁平的,在多输出问题中是嵌套的。ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
的estimators_
属性现在是tree.DecisionTreeRegressor
的数组。为保持一致性,将
decomposition.MiniBatchDictionaryLearning
和decomposition.MiniBatchSparsePCA
中的chunk_size
重命名为batch_size
。svm.SVC
和svm.NuSVC
现在提供了classes_
属性,并支持标签y
的任意 dtype。此外,predict
返回的 dtype 现在反映了fit
期间y
的 dtype(以前是np.float
)。将
cross_validation.train_test_split
中的默认test_size
更改为 None,在cross_validation.ShuffleSplit
和cross_validation.StratifiedShuffleSplit
中添加了从train_size
推断test_size
的可能性。将函数
sklearn.metrics.zero_one
重命名为sklearn.metrics.zero_one_loss
。请注意,sklearn.metrics.zero_one_loss
中的默认行为与sklearn.metrics.zero_one
不同:normalize=False
已更改为normalize=True
。将函数
metrics.zero_one_score
重命名为metrics.accuracy_score
。datasets.make_circles
现在具有相同数量的内外点。在朴素贝叶斯分类器中,
class_prior
参数已从fit
移至__init__
。
贡献者#
0.13 版本贡献者列表(按提交次数排序)。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006