RidgeCV#

class sklearn.linear_model.RidgeCV(alphas=(0.1, 1.0, 10.0), *, fit_intercept=True, scoring=None, cv=None, gcv_mode=None, store_cv_results=False, alpha_per_target=False)[source]#

内置交叉验证的 Ridge 回归。

有关交叉验证估计器的更多信息，请参阅术语表。

默认情况下，它执行高效的留一交叉验证。

更多信息请参阅用户指南。

参数:

alphasarray-like of shape (n_alphas,), 默认值=(0.1, 1.0, 10.0)

要尝试的 alpha 值数组。正则化强度；必须是正浮点数。正则化可以改善问题的条件，并减少估计的方差。值越大表示正则化强度越大。Alpha 对应于其他线性模型（如 LogisticRegression 或 LinearSVC）中的 1 / (2C)。如果使用留一交叉验证，alphas 必须严格为正。

fit_intercept布尔值, 默认值=True

是否为该模型计算截距。如果设置为 false，则计算中不会使用截距（即数据应已居中）。

scoring字符串, 可调用对象, 默认值=None

用于交叉验证的评分方法。选项

字符串: 有关选项，请参阅字符串名称评分器。
可调用对象: 具有签名 scorer(estimator, X, y) 的评分器可调用对象（例如，函数）。有关详细信息，请参阅可调用评分器。
None: 如果 cv 为 None（即使用留一交叉验证时），则为负的均方误差；否则为决定系数 ($R^2$)。

cv整数, 交叉验证生成器或可迭代对象, 默认值=None

决定交叉验证的分割策略。cv 的可能输入为

None，使用高效的留一交叉验证
整数，指定折叠数。
交叉验证分割器,
一个可迭代对象，生成 (训练集, 测试集) 分割，作为索引数组。

对于整数/None 输入，如果 y 是二分类或多分类，则使用 StratifiedKFold；否则使用 KFold。

有关此处可使用的各种交叉验证策略，请参阅用户指南。

gcv_mode{‘auto’, ‘svd’, ‘eigen’}, 默认值=’auto’

执行留一交叉验证时使用的策略标志。选项包括

'auto' : use 'svd' if n_samples > n_features, otherwise use 'eigen'
'svd' : force use of singular value decomposition of X when X is
    dense, eigenvalue decomposition of X^T.X when X is sparse.
'eigen' : force computation via eigendecomposition of X.X^T

“auto”模式是默认模式，旨在根据训练数据的形状选择两种方法中开销较小的一种。

store_cv_results布尔值, 默认值=False

指示是否将每个 alpha 对应的交叉验证值存储在 cv_results_ 属性中（见下文）的标志。此标志仅与 cv=None（即使用留一交叉验证）兼容。

在 1.5 版本中更改: 参数名称从 store_cv_values 更改为 store_cv_results。

alpha_per_target布尔值, 默认值=False

指示是否为每个目标单独优化 alpha 值（从 alphas 参数列表中选择）的标志（对于多输出设置：多个预测目标）。当设置为 True 时，拟合后，alpha_ 属性将包含每个目标的值。当设置为 False 时，所有目标使用单个 alpha。

0.24 版本新增。

属性:

cv_results_形状为 (n_samples, n_alphas) 或 (n_samples, n_targets, n_alphas) 的 ndarray, 可选: 每个 alpha 的交叉验证值（仅当 store_cv_results=True 且 cv=None 时可用）。调用 fit() 后，如果 scoring is None，此属性将包含均方误差，否则将包含标准化的逐点预测值。

在 1.5 版本中更改: cv_values_ 更改为 cv_results_。
coef_形状为 (n_features) 或 (n_targets, n_features) 的 ndarray: 权重向量。
intercept_浮点数或形状为 (n_targets,) 的 ndarray: 决策函数中的独立项。如果 fit_intercept = False，则设置为 0.0。
alpha_浮点数或形状为 (n_targets,) 的 ndarray: 估计的正则化参数，或者如果 alpha_per_target=True，则是每个目标的估计正则化参数。
best_score_浮点数或形状为 (n_targets,) 的 ndarray: 基础估计器在最佳 alpha 下的得分，或者如果 alpha_per_target=True，则是每个目标的得分。

0.23 版本新增。
n_features_in_整数: 在拟合期间看到的特征数量。

0.24 版本新增。
feature_names_in_形状为 (n_features_in_,) 的 ndarray: 在拟合期间看到的特征名称。仅当 X 的所有特征名称均为字符串时才定义。

1.0 版本新增。

另请参阅

Ridge: Ridge 回归。
RidgeClassifier: 基于 {-1, 1} 标签的 Ridge 回归分类器。
RidgeClassifierCV: 内置交叉验证的 Ridge 分类器。

示例

>>> from sklearn.datasets import load_diabetes
>>> from sklearn.linear_model import RidgeCV
>>> X, y = load_diabetes(return_X_y=True)
>>> clf = RidgeCV(alphas=[1e-3, 1e-2, 1e-1, 1]).fit(X, y)
>>> clf.score(X, y)
0.5166...

fit(X, y, sample_weight=None, **params)[source]#

使用 cv 拟合 Ridge 回归模型。

参数:

X形状为 (n_samples, n_features) 的 ndarray: 训练数据。如果使用 GCV，必要时将转换为 float64。
y形状为 (n_samples,) 或 (n_samples, n_targets) 的 ndarray: 目标值。必要时将转换为 X 的 dtype。
sample_weight浮点数或形状为 (n_samples,) 的 ndarray, 默认值=None: 每个样本的独立权重。如果给定一个浮点数，每个样本将具有相同的权重。
**params字典, 默认值=None: 将传递给底层评分器的参数。

1.5 版本新增: 仅当 enable_metadata_routing=True 时可用，可通过 sklearn.set_config(enable_metadata_routing=True) 设置。有关详细信息，请参阅元数据路由用户指南。

返回:

self对象: 拟合的估计器。

注意

当提供 sample_weight 时，所选择的超参数可能取决于我们是使用留一交叉验证（cv=None）还是其他形式的交叉验证，因为只有留一交叉验证在计算验证分数时会考虑样本权重。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查阅用户指南，了解路由机制的工作原理。

1.5 版本新增。

返回:

routingMetadataRouter: 一个封装了路由信息的 MetadataRouter。

get_params(deep=True)[source]#

获取此估计器的参数。

参数:

deep布尔值, 默认值=True: 如果为 True，将返回此估计器及其包含的作为估计器的子对象的参数。

返回:

params字典: 参数名称映射到其值。

predict(X)[source]#

使用线性模型进行预测。

参数:

Xarray-like 或稀疏矩阵, 形状 (n_samples, n_features): 样本。

返回:

C数组, 形状 (n_samples,): 返回预测值。

score(X, y, sample_weight=None)[source]#

返回测试数据上的决定系数。

决定系数 $R^2$ 定义为 $(1 - \frac{u}{v})$，其中 $u$ 是残差平方和 ((y_true - y_pred)** 2).sum()，$v$ 是总平方和 ((y_true - y_true.mean()) ** 2).sum()。最佳得分是 1.0，也可能为负（因为模型可能任意地差）。一个始终预测 y 期望值而不考虑输入特征的常数模型将得到 0.0 的 $R^2$ 分数。

参数:

X形状为 (n_samples, n_features) 的 array-like 对象: 测试样本。对于某些估计器，这可能是一个预先计算的核矩阵，或者是一个通用对象列表，其形状为 (n_samples, n_samples_fitted)，其中 n_samples_fitted 是估计器拟合中使用的样本数量。
y形状为 (n_samples,) 或 (n_samples, n_outputs) 的 array-like 对象: X 的真实值。
sample_weight形状为 (n_samples,) 的 array-like 对象, 默认值=None: 样本权重。

返回:

score浮点数: self.predict(X) 相对于 y 的 $R^2$。

注意

在回归器上调用 score 时使用的 $R^2$ 分数从 0.23 版本开始使用 multioutput='uniform_average'，以与 r2_score 的默认值保持一致。这会影响所有多输出回归器的 score 方法（除了 MultiOutputRegressor）。

set_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') → RidgeCV[source]#