HalvingGridSearchCV#

class sklearn.model_selection.HalvingGridSearchCV(estimator, param_grid, *, factor=3, resource='n_samples', max_resources='auto', min_resources='exhaust', aggressive_elimination=False, cv=5, scoring=None, refit=True, error_score=nan, return_train_score=True, random_state=None, n_jobs=None, verbose=0)[source]#

使用 Successive Halving 对指定参数值进行搜索。

搜索策略开始用少量资源评估所有候选者,并迭代地选择最佳候选者,逐渐增加资源的使用量。

请参阅 用户指南 以了解更多信息。

注意

此估计器目前仍处于实验阶段:预测和 API 可能会在没有任何弃用周期的情况下发生更改。要使用它,您需要显式导入 enable_halving_search_cv

>>> # explicitly require this experimental feature
>>> from sklearn.experimental import enable_halving_search_cv # noqa
>>> # now you can import normally from model_selection
>>> from sklearn.model_selection import HalvingGridSearchCV
参数:
estimator估计器对象

假设这实现了 scikit-learn 估计器接口。估计器需要提供一个 score 函数,或者必须传入 scoring

param_griddict 或 list of dictionaries

字典,其中键为参数名称(字符串),值为要尝试的参数设置列表;或者是一个包含此类字典的列表,在这种情况下,将探索列表中每个字典所跨越的网格。这使得可以搜索任何一系列参数设置。

factorint 或 float,默认为 3

“对半”参数,它决定了每个后续迭代中选择的候选者的比例。例如,factor=3 表示只选择三分之一的候选者。

resource'n_samples' 或 str,默认为 'n_samples'

定义随每次迭代而增加的资源。默认情况下,资源是样本数量。它也可以设置为基估计器的任何接受正整数值的参数,例如,梯度提升估计器的“n_iterations”或“n_estimators”。在这种情况下,max_resources 不能设置为 'auto',必须显式设置。

max_resourcesint,默认为 'auto'

任何候选者在给定迭代中允许使用的资源的最大量。默认情况下,当 resource='n_samples'(默认值)时,此设置为 n_samples,否则会引发错误。

min_resources{‘exhaust’, ‘smallest’} 或 int,默认为 'exhaust'

任何候选者在给定迭代中允许使用的资源的最小量。等效地,这定义了第一次迭代中为每个候选者分配的资源量 r0

  • ‘smallest’ 是一种启发式方法,将 r0 设置为一个小值

    • n_splits * 2resource='n_samples' 对于回归问题时

    • n_classes * n_splits * 2resource='n_samples' 对于分类问题时

    • 1resource != 'n_samples'

  • 'exhaust' 将 r0 设置为使最后一次迭代尽可能多地使用资源。即,最后一次迭代将使用小于 max_resources 且是 min_resourcesfactor 的倍数的最大值。总的来说,使用 'exhaust' 会得到更准确的估计器,但耗时稍长。

请注意,每次迭代使用的资源量始终是 min_resources 的倍数。

aggressive_eliminationbool,默认为 False

这仅在没有足够资源将剩余候选者减少到最多 factor 个之后才能满足要求的情况下才相关。如果为 True,则搜索过程将“重播”第一次迭代,直到候选者数量足够少为止。默认值为 False,这意味着最后一次迭代可能评估的候选者多于 factor 个。有关更多详细信息,请参阅 候选者的激进消除

cvint、交叉验证生成器或可迭代对象,默认为 5

确定交叉验证拆分策略。cv 的可能输入包括

  • integer,指定 (Stratified)KFold 中的折数,

  • CV 分割器,

  • 一个可迭代对象,产生索引数组形式的 (训练集, 测试集) 拆分。

对于 integer/None 输入,如果估计器是分类器且 y 是二元或多类,则使用 StratifiedKFold。在所有其他情况下,使用 KFold。这些分割器以 shuffle=False 实例化,因此拆分在不同调用中将保持相同。

有关此处可使用的各种交叉验证策略,请参阅 用户指南

注意

由于实现细节,cv 生成的折叠在多次调用 cv.split() 时必须相同。对于内置的 scikit-learn 迭代器,可以通过禁用洗牌(shuffle=False)或将 cvrandom_state 参数设置为整数来实现。

scoringstr 或可调用对象,默认=None

用于在测试集上评估预测的评分方法。

refitbool 或 callable,默认为 True

使用找到的最佳参数在整个数据集上重新拟合估计器。

当选择最佳估计器时,除了最大分数之外还有其他考虑因素时,refit 可以设置为一个函数,该函数根据 cv_results_ 返回选定的 best_index_。在这种情况下,best_estimator_best_params_ 将根据返回的 best_index_ 设置,而 best_score_ 属性将不可用。

重新拟合的估计器可在 best_estimator_ 属性中获得,并允许直接对该 HalvingGridSearchCV 实例使用 predict

请参阅 此示例,了解如何使用 refit=callable 来平衡模型复杂度和交叉验证分数。

error_score“raise” 或 numeric

在估计器拟合过程中发生错误时分配给分数的该值。如果设置为“raise”,则引发错误。如果给出数值,则会引发 FitFailedWarning。此参数不影响重新拟合步骤,该步骤将始终引发错误。默认为 np.nan

return_train_scorebool, default=False

如果为 False,则 cv_results_ 属性将不包括训练分数。计算训练分数用于深入了解不同参数设置如何影响过拟合/欠拟合的权衡。然而,计算训练集上的分数可能计算成本很高,并且不是严格要求用于选择产生最佳泛化性能的参数。

random_stateint, RandomState instance or None, default=None

伪随机数生成器状态,用于在 resources != 'n_samples' 时对数据集进行子采样。否则将被忽略。对于多次函数调用之间的可重复输出,请传递一个整数。请参阅 术语表

n_jobsint or None, default=None

并行运行的作业数。None 表示 1,除非在 joblib.parallel_backend 上下文中。-1 表示使用所有处理器。有关更多详细信息,请参阅 Glossary

verboseint

控制详细程度:值越高,消息越多。

属性:
n_resources_list of int

每次迭代使用的资源量。

n_candidates_list of int

每次迭代评估的候选参数数量。

n_remaining_candidates_int

最后一次迭代后剩余的候选参数数量。它对应于 ceil(n_candidates[-1] / factor)

max_resources_int

任何候选者在给定迭代中允许使用的最大资源数量。请注意,由于每次迭代使用的资源量必须是 min_resources_ 的倍数,因此最后一次迭代中实际使用的资源量可能小于 max_resources_

min_resources_int

第一次迭代中为每个候选者分配的资源量。

n_iterations_int

实际运行的迭代次数。如果 aggressive_eliminationTrue,则此值等于 n_required_iterations_。否则,此值等于 min(n_possible_iterations_, n_required_iterations_)

n_possible_iterations_int

min_resources_ 资源开始,并且不超过 max_resources_ 的可能迭代次数。

n_required_iterations_int

min_resources_ 资源开始,到最后一次迭代结束时候选者少于 factor 个所需的迭代次数。当资源不足时,此值将小于 n_possible_iterations_

cv_results_dict of numpy (masked) ndarrays

一个字典,其中键为列标题,值为列,可以导入到 pandas DataFrame 中。它包含大量用于分析搜索结果的信息。有关详细信息,请参阅 用户指南。有关分析 cv_results_ 的示例,请参阅 使用网格搜索进行模型的统计比较

best_estimator_estimator 或 dict

搜索选择的估计器,即在保留数据上给出最高分数(或指定最小损失)的估计器。如果 refit=False 则不可用。

best_score_float

best_estimator 的平均交叉验证分数。

best_params_dict

在保留数据上给出最佳结果的参数设置。

best_index_int

与最佳候选参数设置相对应的 cv_results_ 数组中的索引。

search.cv_results_['params'][search.best_index_] 处的字典给出了最佳模型的参数设置,该模型给出了最高平均分数(search.best_score_)。

scorer_function or a dict

用于在保留数据上选择模型最佳参数的评分函数。

n_splits_int

交叉验证拆分的数量(折叠/迭代)。

refit_time_float

用于在整个数据集上重新拟合最佳模型所花费的秒数。

仅在 refit 不为 False 时存在。

multimetric_bool

评分器是否计算多个指标。

classes_形状为 (n_classes,) 的 ndarray

类别标签。

n_features_in_int

拟合 期间看到的特征数。

feature_names_in_shape 为 (n_features_in_,) 的 ndarray

fit 期间看到的特征名称。仅当定义了 best_estimator_(有关详细信息,请参阅 refit 参数的文档)并且 best_estimator_ 在拟合时公开 feature_names_in_ 时才定义。

1.0 版本新增。

另请参阅

HalvingRandomSearchCV

使用渐进式对半搜索参数集的随机搜索。

注意事项

根据 scoring 参数,选择的参数是使保留数据分数最大化的参数。

所有得分为 NaN 的参数组合将共享最低的排名。

示例

>>> from sklearn.datasets import load_iris
>>> from sklearn.ensemble import RandomForestClassifier
>>> from sklearn.experimental import enable_halving_search_cv  # noqa
>>> from sklearn.model_selection import HalvingGridSearchCV
...
>>> X, y = load_iris(return_X_y=True)
>>> clf = RandomForestClassifier(random_state=0)
...
>>> param_grid = {"max_depth": [3, None],
...               "min_samples_split": [5, 10]}
>>> search = HalvingGridSearchCV(clf, param_grid, resource='n_estimators',
...                              max_resources=10,
...                              random_state=0).fit(X, y)
>>> search.best_params_
{'max_depth': None, 'min_samples_split': 10, 'n_estimators': 9}
decision_function(X)[source]#

使用找到的最佳参数调用估计器上的 decision_function。

仅当 refit=True 且底层估计器支持 decision_function 时可用。

参数:
X可索引对象,长度 n_samples

必须满足底层估计器的输入假设。

返回:
y_score形状为 (n_samples,) 或 (n_samples, n_classes) 或 (n_samples, n_classes * (n_classes-1) / 2) 的 ndarray

基于具有最佳找到参数的估计器对 X 的决策函数结果。

fit(X, y=None, **params)[source]#

使用所有参数集运行拟合。

参数:
Xarray-like, shape (n_samples, n_features)

训练向量,其中 n_samples 是样本数,n_features 是特征数。

yarray-like, shape (n_samples,) 或 (n_samples, n_output),可选

相对于 X 的分类或回归目标;对于无监督学习为 None。

**paramsstr -> object 字典

传递给估计器的 fit 方法的参数。

返回:
selfobject

已拟合估计器的实例。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查阅 用户指南,了解路由机制如何工作。

1.4 版本新增。

返回:
routingMetadataRouter

封装路由信息的 MetadataRouter

get_params(deep=True)[source]#

获取此估计器的参数。

参数:
deepbool, default=True

如果为 True,将返回此估计器以及包含的子对象(如果它们是估计器)的参数。

返回:
paramsdict

参数名称映射到其值。

inverse_transform(X)[source]#

使用找到的最佳参数调用估计器上的 inverse_transform。

仅当底层估计器实现 inverse_transformrefit=True 时可用。

参数:
X可索引对象,长度 n_samples

必须满足底层估计器的输入假设。

返回:
X_original形状为 (n_samples, n_features) 的 {ndarray, sparse matrix}

基于具有最佳找到参数的估计器对 Xinverse_transform 函数结果。

predict(X)[source]#

使用找到的最佳参数调用估计器上的 predict。

仅当 refit=True 且底层估计器支持 predict 时可用。

参数:
X可索引对象,长度 n_samples

必须满足底层估计器的输入假设。

返回:
y_pred形状为 (n_samples,) 的 ndarray

基于具有最佳找到参数的估计器对 X 的预测标签或值。

predict_log_proba(X)[source]#

使用找到的最佳参数调用估计器上的 predict_log_proba。

仅当 refit=True 且底层估计器支持 predict_log_proba 时可用。

参数:
X可索引对象,长度 n_samples

必须满足底层估计器的输入假设。

返回:
y_pred形状为 (n_samples,) 或 (n_samples, n_classes) 的 ndarray

基于具有最佳找到参数的估计器对 X 的预测类别对数概率。类别的顺序对应于已拟合属性 classes_ 中的顺序。

predict_proba(X)[source]#

使用找到的最佳参数调用估计器上的 predict_proba。

仅当 refit=True 且底层估计器支持 predict_proba 时可用。

参数:
X可索引对象,长度 n_samples

必须满足底层估计器的输入假设。

返回:
y_pred形状为 (n_samples,) 或 (n_samples, n_classes) 的 ndarray

基于具有最佳找到参数的估计器对 X 的预测类别概率。类别的顺序对应于已拟合属性 classes_ 中的顺序。

score(X, y=None, **params)[source]#

如果估计器已重新拟合,则返回给定数据的分数。

如果提供了 scoring,则使用它定义的分数;否则使用 best_estimator_.score 方法。

参数:
Xshape 为 (n_samples, n_features) 的 array-like

输入数据,其中 n_samples 是样本数量,n_features 是特征数量。

y形状为 (n_samples, n_output) 或 (n_samples,) 的类数组对象, default=None

相对于 X 的分类或回归目标;对于无监督学习为 None。

**paramsdict

要传递给底层评分器(s)的参数。

1.4 版本新增: 仅当 enable_metadata_routing=True 时可用。有关更多详细信息,请参阅 元数据路由用户指南

返回:
scorefloat

如果提供了 scoring,则使用它定义的分数;否则使用 best_estimator_.score 方法。

score_samples(X)[source]#

使用找到的最佳参数调用估计器上的 score_samples。

仅当 refit=True 且底层估计器支持 score_samples 时可用。

0.24 版本新增。

参数:
Xiterable

用于预测的数据。必须满足底层估计器的输入要求。

返回:
y_score形状为 (n_samples,) 的 ndarray

best_estimator_.score_samples 方法。

set_params(**params)[source]#

设置此估计器的参数。

此方法适用于简单的估计器以及嵌套对象(如 Pipeline)。后者具有 <component>__<parameter> 形式的参数,以便可以更新嵌套对象的每个组件。

参数:
**paramsdict

估计器参数。

返回:
selfestimator instance

估计器实例。

transform(X)[source]#

使用找到的最佳参数调用估计器上的 transform。

仅当底层估计器支持 transformrefit=True 时可用。

参数:
X可索引对象,长度 n_samples

必须满足底层估计器的输入假设。

返回:
Xt形状为 (n_samples, n_features) 的 {ndarray, sparse matrix}

基于具有最佳找到参数的估计器在新的空间中转换的 X