RandomizedSearchCV#

class sklearn.model_selection.RandomizedSearchCV(estimator, param_distributions, *, n_iter=10, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', random_state=None, error_score=nan, return_train_score=False)[source]#

超参数的随机搜索。

RandomizedSearchCV 实现了“fit”和“score”方法。如果所使用的估计器中实现了“score_samples”、“predict”、“predict_proba”、“decision_function”、“transform”和“inverse_transform”,它也会实现这些方法。

用于应用这些方法的估计器的参数通过交叉验证搜索参数设置来优化。

与 GridSearchCV 不同,它不会尝试所有参数值,而是从指定的分布中抽取固定数量的参数设置。尝试的参数设置数量由 n_iter 给出。

如果所有参数都以列表形式呈现,则执行无放回抽样。如果至少有一个参数以分布形式给出,则使用有放回抽样。强烈建议对连续参数使用连续分布。

用户指南中阅读更多内容。

0.14 版本新增。

参数:
estimator估计器对象

为每个网格点实例化该类型的对象。这被假定为实现了 scikit-learn 估计器接口。估计器需要提供一个 score 函数,或者必须传入 scoring

param_distributions字典或字典列表

字典,以参数名称(str)作为键,分布或要尝试的参数列表作为值。分布必须提供一个用于抽样的 rvs 方法(例如来自 scipy.stats.distributions 的方法)。如果给定一个列表,则进行均匀抽样。如果给定一个字典列表,则首先均匀抽样一个字典,然后按照上述方式使用该字典抽样一个参数。

n_iter整数,默认值=10

抽样的参数设置数量。n_iter 权衡了运行时间与解决方案的质量。

scoring字符串、可调用对象、列表、元组或字典,默认值=None

评估交叉验证模型在测试集上性能的策略。

如果 scoring 表示单个分数,可以使用

如果 scoring 表示多个分数,可以使用

  • 唯一字符串的列表或元组;

  • 返回一个字典的可调用对象,其中键是指标名称,值是指标分数;

  • 以指标名称为键、可调用对象为值的字典。

有关示例,请参见指定多个评估指标

如果为 None,则使用估计器的 score 方法。

n_jobs整数,默认值=None

并行运行的作业数量。None 表示 1,除非在 joblib.parallel_backend 上下文中。-1 表示使用所有处理器。更多详细信息请参见术语表

v0.20 版本更改: n_jobs 的默认值从 1 更改为 None

refit布尔值、字符串或可调用对象,默认值=True

使用在整个数据集上找到的最佳参数重新拟合估计器。

对于多指标评估,这需要是一个 str,表示用于在最后重新拟合估计器时寻找最佳参数的评分器。

在选择最佳估计器时,如果除了最大分数之外还有其他考虑因素,可以将 refit 设置为一个函数,该函数根据 cv_results_ 返回选定的 best_index_。在这种情况下,best_estimator_best_params_ 将根据返回的 best_index_ 进行设置,而 best_score_ 属性将不可用。

重新拟合的估计器可在 best_estimator_ 属性中获取,并允许直接在此 RandomizedSearchCV 实例上使用 predict

此外,对于多指标评估,只有在设置了 refit 且所有这些属性都将根据此特定评分器确定时,属性 best_index_best_score_best_params_ 才可用。

有关多指标评估的更多信息,请参见 scoring 参数。

有关如何使用 refit=callable 来平衡模型复杂性和交叉验证分数的示例,请参见此示例

0.20 版本更改: 增加了对可调用对象的支持。

cv整数、交叉验证生成器或可迭代对象,默认值=None

确定交叉验证的拆分策略。cv 的可能输入有

  • None,使用默认的 5 折交叉验证,

  • 整数,指定 (Stratified)KFold 中的折叠数,

  • CV 分割器,

  • 一个生成 (训练集, 测试集) 拆分的迭代器,拆分结果为索引数组。

对于整数/None 输入,如果估计器是分类器且 y 是二元或多类,则使用 StratifiedKFold。在所有其他情况下,使用 KFold。这些分割器在实例化时使用 shuffle=False,因此在不同调用中分割结果将相同。

有关此处可用的各种交叉验证策略,请参阅用户指南

0.22 版本更改: cv 的默认值从 None 时的 3 折改为 5 折。

verbose整数

控制详细程度:值越高,消息越多。

  • >1 : 显示每个折叠和参数候选项的计算时间;

  • >2 : 也显示分数;

  • >3 : 折叠和候选项参数索引以及计算开始时间也一并显示。

pre_dispatch整数或字符串,默认值='2*n_jobs'

控制并行执行期间调度的作业数量。当调度的作业数量超过 CPU 处理能力时,减少此数量有助于避免内存消耗的激增。此参数可以是

  • None,在这种情况下,所有作业都会立即创建并生成。将其用于轻量级和快速运行的作业,以避免因按需生成作业而导致的延迟

  • 一个整数,给出生成的总作业的确切数量

  • 一个字符串,给出作为 n_jobs 函数的表达式,例如 '2*n_jobs'

random_state整数、RandomState 实例或 None,默认值=None

伪随机数生成器状态,用于从可能值列表而不是 scipy.stats 分布中进行随机均匀抽样。传入一个整数可使多次函数调用产生可重现的输出。参见术语表

error_score'raise' 或数值,默认值=np.nan

如果估计器拟合发生错误,则分配给分数的值。如果设置为 'raise',则会引发错误。如果给定一个数值,则会引发 FitFailedWarning。此参数不影响重新拟合步骤,重新拟合步骤始终会引发错误。

return_train_score布尔值,默认值=False

如果为 False,则 cv_results_ 属性将不包括训练分数。计算训练分数用于深入了解不同参数设置如何影响过拟合/欠拟合的权衡。然而,在训练集上计算分数可能计算成本很高,并且不是严格要求用于选择产生最佳泛化性能的参数。

0.19 版本新增。

0.21 版本更改: 默认值从 True 更改为 False

属性:
cv_results_numpy(掩码)ndarrays 字典

一个字典,其中键作为列标题,值作为列,可以导入到 pandas DataFrame 中。

例如,下面给出的表格

param_kernel

param_gamma

split0_test_score

rank_test_score

‘rbf’

0.1

0.80

1

‘rbf’

0.2

0.84

3

‘rbf’

0.3

0.70

2

将由 cv_results_ 字典表示

{
'param_kernel' : masked_array(data = ['rbf', 'rbf', 'rbf'],
                              mask = False),
'param_gamma'  : masked_array(data = [0.1 0.2 0.3], mask = False),
'split0_test_score'  : [0.80, 0.84, 0.70],
'split1_test_score'  : [0.82, 0.50, 0.70],
'mean_test_score'    : [0.81, 0.67, 0.70],
'std_test_score'     : [0.01, 0.24, 0.00],
'rank_test_score'    : [1, 3, 2],
'split0_train_score' : [0.80, 0.92, 0.70],
'split1_train_score' : [0.82, 0.55, 0.70],
'mean_train_score'   : [0.81, 0.74, 0.70],
'std_train_score'    : [0.01, 0.19, 0.00],
'mean_fit_time'      : [0.73, 0.63, 0.43],
'std_fit_time'       : [0.01, 0.02, 0.01],
'mean_score_time'    : [0.01, 0.06, 0.04],
'std_score_time'     : [0.00, 0.00, 0.00],
'params'             : [{'kernel' : 'rbf', 'gamma' : 0.1}, ...],
}

注意

'params' 用于存储所有参数候选项的参数设置字典列表。

mean_fit_timestd_fit_timemean_score_timestd_score_time 都以秒为单位。

对于多指标评估,所有评分器的分数都可以在 cv_results_ 字典中找到,其键以该评分器的名称结尾('_<scorer_name>'),而不是上面所示的 '_score'。(例如 'split0_test_precision','mean_train_precision' 等)

best_estimator_估计器

搜索选择的估计器,即在保留数据上给出最高分数(如果指定了最小损失)的估计器。如果 refit=False 则不可用。

对于多指标评估,此属性仅在指定了 refit 时才存在。

有关允许值的更多信息,请参见 refit 参数。

best_score_浮点数

best_estimator_ 的平均交叉验证分数。

对于多指标评估,如果 refitFalse,则此属性不可用。有关更多信息,请参见 refit 参数。

如果 refit 是一个函数,则此属性不可用。

best_params_字典

在保留数据上给出最佳结果的参数设置。

对于多指标评估,如果 refitFalse,则此属性不可用。有关更多信息,请参见 refit 参数。

best_index_整数

对应于最佳候选项参数设置的索引(cv_results_ 数组的索引)。

search.cv_results_['params'][search.best_index_] 处的字典给出了最佳模型的参数设置,该模型提供了最高的平均分数(search.best_score_)。

对于多指标评估,如果 refitFalse,则此属性不可用。有关更多信息,请参见 refit 参数。

scorer_函数或字典

在保留数据上用于为模型选择最佳参数的评分函数。

对于多指标评估,此属性包含验证过的 scoring 字典,该字典将评分器键映射到可调用的评分器。

n_splits_整数

交叉验证拆分(折叠/迭代)的数量。

refit_time_浮点数

重新拟合整个数据集上最佳模型所用的秒数。

仅当 refit 不为 False 时存在。

0.20 版本新增。

multimetric_布尔值

评分器是否计算多个指标。

classes_形状为 (n_classes,) 的 ndarray

类别标签。

n_features_in_整数

fit 期间观察到的特征数量。

feature_names_in_形状为 (n_features_in_,) 的 ndarray

fit 期间观察到的特征名称。仅在 best_estimator_ 已定义(有关详细信息,请参见 refit 参数的文档),并且 best_estimator_ 在拟合时公开 feature_names_in_ 时定义。

1.0 版本新增。

另请参见

GridSearchCV

对参数网格进行穷举搜索。

ParameterSampler

一个参数设置的生成器,由 param_distributions 构造。

备注

根据评分参数,选择的参数是使保留数据的分数最大化的参数。

如果 n_jobs 设置为大于 1 的值,则数据会为每个参数设置进行复制(而不是 n_jobs 次)。如果单个作业耗时很短,这样做是为了效率,但如果数据集很大且内存不足,可能会引发错误。在这种情况下,一个解决方法是设置 pre_dispatch。然后,内存只会被复制 pre_dispatch 次。 pre_dispatch 的合理值为 2 * n_jobs

示例

>>> from sklearn.datasets import load_iris
>>> from sklearn.linear_model import LogisticRegression
>>> from sklearn.model_selection import RandomizedSearchCV
>>> from scipy.stats import uniform
>>> iris = load_iris()
>>> logistic = LogisticRegression(solver='saga', tol=1e-2, max_iter=200,
...                               random_state=0)
>>> distributions = dict(C=uniform(loc=0, scale=4),
...                      penalty=['l2', 'l1'])
>>> clf = RandomizedSearchCV(logistic, distributions, random_state=0)
>>> search = clf.fit(iris.data, iris.target)
>>> search.best_params_
{'C': np.float64(2.195), 'penalty': 'l1'}
decision_function(X)[source]#

使用找到的最佳参数调用估计器的 decision_function 方法。

仅当 refit=True 且底层估计器支持 decision_function 时可用。

参数:
X可索引对象,长度为 n_samples

必须满足底层估计器的输入假设。

返回:
y_score形状为 (n_samples,) 或 (n_samples, n_classes) 或 (n_samples, n_classes * (n_classes-1) / 2) 的 ndarray

基于找到的最佳参数的估计器,对 X 执行 decision function 的结果。

fit(X, y=None, **params)[source]#

使用所有参数集运行 fit。

参数:
X形状为 (n_samples, n_features) 或 (n_samples, n_samples) 的类数组对象

训练向量,其中 n_samples 是样本数量,n_features 是特征数量。对于预计算的核或距离矩阵,X 的预期形状为 (n_samples, n_samples)。

y形状为 (n_samples, n_output) 或 (n_samples,) 的类数组对象,默认值=None

相对于 X 的分类或回归目标;无监督学习为 None。

**params字典,键为 str -> 值对象

传递给估计器、评分器和 CV 分割器的 fit 方法的参数。

如果拟合参数是长度等于 num_samples 的类数组对象,那么它将与 Xy 一起通过交叉验证进行分割。例如,sample_weight 参数会被分割,因为 len(sample_weights) = len(X)。然而,此行为不适用于 groupsgroups 通过构造函数的 cv 参数传递给分割器。因此,groups 用于执行分割并确定哪些样本分配到分割的每一侧。

返回:
self对象

拟合估计器的实例。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查看用户指南了解路由机制的工作原理。

1.4 版本新增。

返回:
routingMetadataRouter

一个封装了路由信息的 MetadataRouter

get_params(deep=True)[source]#

获取此估计器的参数。

参数:
deep布尔值,默认值=True

如果为 True,将返回此估计器及其包含的作为估计器的子对象的参数。

返回:
params字典

参数名称映射到其值。

inverse_transform(X)[source]#

使用找到的最佳参数调用估计器的 inverse_transform 方法。

仅当底层估计器实现 inverse_transformrefit=True 时可用。

参数:
X可索引对象,长度为 n_samples

必须满足底层估计器的输入假设。

返回:
X_original形状为 (n_samples, n_features) 的 {ndarray, 稀疏矩阵}

基于找到的最佳参数的估计器,对 X 执行 inverse_transform 函数的结果。

predict(X)[source]#

使用找到的最佳参数调用估计器的 predict 方法。

仅当 refit=True 且底层估计器支持 predict 时可用。

参数:
X可索引对象,长度为 n_samples

必须满足底层估计器的输入假设。

返回:
y_pred形状为 (n_samples,) 的 ndarray

基于找到的最佳参数的估计器,对 X 的预测标签或值。

predict_log_proba(X)[source]#

使用找到的最佳参数调用估计器的 predict_log_proba 方法。

仅当 refit=True 且底层估计器支持 predict_log_proba 时可用。

参数:
X可索引对象,长度为 n_samples

必须满足底层估计器的输入假设。

返回:
y_pred形状为 (n_samples,) 或 (n_samples, n_classes) 的 ndarray

基于找到的最佳参数的估计器,对 X 的预测类别对数概率。类别的顺序与拟合属性 classes_ 中的顺序一致。

predict_proba(X)[source]#

使用找到的最佳参数调用估计器的 predict_proba 方法。

仅当 refit=True 且底层估计器支持 predict_proba 时可用。

参数:
X可索引对象,长度为 n_samples

必须满足底层估计器的输入假设。

返回:
y_pred形状为 (n_samples,) 或 (n_samples, n_classes) 的 ndarray

基于找到的最佳参数的估计器,对 X 的预测类别概率。类别的顺序与拟合属性 classes_ 中的顺序一致。

score(X, y=None, **params)[source]#

如果估计器已重新拟合,则返回给定数据的分数。

这会使用 scoring 定义的分数(如果提供),否则使用 best_estimator_.score 方法。

参数:
X形状为 (n_samples, n_features) 的类数组对象

输入数据,其中 n_samples 是样本数量,n_features 是特征数量。

y形状为 (n_samples, n_output) 或 (n_samples,) 的类数组对象,默认值=None

相对于 X 的分类或回归目标;无监督学习为 None。

**params字典

要传递给底层评分器(s)的参数。

1.4 版本新增: 仅在 enable_metadata_routing=True 时可用。有关更多详细信息,请参见元数据路由用户指南

返回:
score浮点数

如果提供了 scoring,则由其定义的分数;否则为 best_estimator_.score 方法的分数。

score_samples(X)[source]#

使用找到的最佳参数调用估计器的 score_samples 方法。

仅当 refit=True 且底层估计器支持 score_samples 时可用。

0.24 版本新增。

参数:
X可迭代对象

要预测的数据。必须满足底层估计器的输入要求。

返回:
y_score形状为 (n_samples,) 的 ndarray

The best_estimator_.score_samples 方法。

set_params(**params)[source]#

设置此估计器的参数。

该方法适用于简单估计器以及嵌套对象(例如 Pipeline)。后者具有 <component>__<parameter> 形式的参数,以便可以更新嵌套对象的每个组件。

参数:
**params字典

估计器参数。

返回:
self估计器实例

估计器实例。

transform(X)[source]#

使用找到的最佳参数调用估计器的 transform 方法。

仅当底层估计器支持 transformrefit=True 时可用。

参数:
X可索引对象,长度为 n_samples

必须满足底层估计器的输入假设。

返回:
Xt形状为 (n_samples, n_features) 的 {ndarray, 稀疏矩阵}

基于找到的最佳参数的估计器,将 X 转换到新空间。