贝叶斯岭回归#
- class sklearn.linear_model.BayesianRidge(*, max_iter=300, tol=0.001, alpha_1=1e-06, alpha_2=1e-06, lambda_1=1e-06, lambda_2=1e-06, alpha_init=None, lambda_init=None, compute_score=False, fit_intercept=True, copy_X=True, verbose=False)[source]#
贝叶斯岭回归。
拟合贝叶斯岭模型。有关此实现和正则化参数 lambda(权重的精度)和 alpha(噪声的精度)优化的详细信息,请参见“备注”部分。
在用户指南中了解更多信息。有关如何使用不同的初始值对来逼近正弦曲线的多项式逼近的直观可视化,请参见使用贝叶斯岭回归进行曲线拟合。
- 参数:
- max_iterint,默认为 300
在停止任何提前停止标准之前,在完整数据集上迭代的最大次数。
1.3 版中的更改。
- tolfloat,默认为 1e-3
如果 w 收敛,则停止算法。
- alpha_1float,默认为 1e-6
超参数:alpha 参数的 Gamma 分布先验的形状参数。
- alpha_2float,默认为 1e-6
超参数:alpha 参数的 Gamma 分布先验的逆尺度参数(率参数)。
- lambda_1float,默认为 1e-6
超参数:lambda 参数的 Gamma 分布先验的形状参数。
- lambda_2float,默认为 1e-6
超参数:lambda 参数的 Gamma 分布先验的逆尺度参数(率参数)。
- alpha_initfloat,默认为 None
alpha(噪声的精度)的初始值。如果未设置,则 alpha_init 为 1/Var(y)。
0.22 版中添加。
- lambda_initfloat,默认为 None
lambda(权重的精度)的初始值。如果未设置,则 lambda_init 为 1。
0.22 版中添加。
- compute_scorebool,默认为 False
如果为 True,则计算优化每次迭代的对数边际似然。
- fit_interceptbool,默认为 True
是否为此模型计算截距。截距不被视为概率参数,因此没有相关的方差。如果设置为 False,则计算中将不使用截距(即,预期数据已居中)。
- copy_Xbool,默认为 True
如果为 True,则将复制 X;否则,它可能会被覆盖。
- verbosebool,默认为 False
拟合模型时的详细模式。
- 属性:
- coef_形状为 (n_features,) 的类数组
回归模型的系数(分布的均值)
- intercept_float
决策函数中的独立项。如果
fit_intercept = False
,则设置为 0.0。- alpha_float
噪声的估计精度。
- lambda_float
权重的估计精度。
- sigma_形状为 (n_features, n_features) 的类数组
权重的估计方差-协方差矩阵
- scores_形状为 (n_iter_+1,) 的类数组
如果 computed_score 为 True,则为优化每次迭代的对数边际似然的值。该数组以使用 alpha 和 lambda 的初始值获得的对数边际似然值开头,并以使用估计的 alpha 和 lambda 获得的值结尾。
- n_iter_int
达到停止标准的实际迭代次数。
- X_offset_形状为 (n_features,) 的 ndarray
如果
fit_intercept=True
,则为将数据居中到零均值而减去的偏移量。否则设置为 np.zeros(n_features)。- X_scale_形状为 (n_features,) 的 ndarray
设置为 np.ones(n_features)。
- n_features_in_int
在拟合期间看到的特征数量。
0.24 版中添加。
- feature_names_in_形状为 (
n_features_in_
,) 的 ndarray 在拟合期间看到的特征名称。仅当
X
具有全部为字符串的特征名称时定义。1.0 版中添加。
另请参见
ARDRegression
贝叶斯 ARD 回归。
备注
贝叶斯岭回归有多种实现策略。本实现基于 (Tipping, 2001) 附录 A 中描述的算法,其中正则化参数的更新如 (MacKay, 1992) 中所建议的那样。请注意,根据《自动相关性确定的新视角》(Wipf and Nagarajan, 2008),这些更新规则不能保证在优化过程的两个连续迭代之间边际似然函数是递增的。
参考文献
D. J. C. MacKay, 贝叶斯插值,计算与神经系统,第 4 卷,第 3 期,1992 年。
M. E. Tipping, 稀疏贝叶斯学习和相关向量机,机器学习研究杂志,第 1 卷,2001 年。
示例
>>> from sklearn import linear_model >>> clf = linear_model.BayesianRidge() >>> clf.fit([[0,0], [1, 1], [2, 2]], [0, 1, 2]) BayesianRidge() >>> clf.predict([[1, 1]]) array([1.])
- fit(X, y, sample_weight=None)[source]#
拟合模型。
- 参数:
- X形状为 (n_samples, n_features) 的 ndarray
训练数据。
- y形状为 (n_samples,) 的 ndarray
目标值。如有必要,将转换为 X 的 dtype。
- sample_weight形状为 (n_samples,) 的 ndarray,默认值=None
每个样本的个体权重。
0.20 版本新增: 参数sample_weight支持BayesianRidge。
- 返回值:
- self对象
返回实例本身。
- get_metadata_routing()[source]#
获取此对象的元数据路由。
请查看 用户指南,了解路由机制的工作原理。
- 返回值:
- routingMetadataRequest
一个
MetadataRequest
封装路由信息。
- get_params(deep=True)[source]#
获取此估计器的参数。
- 参数:
- deepbool,默认值=True
如果为 True,则将返回此估计器和作为估计器的包含子对象的参数。
- 返回值:
- paramsdict
参数名称与其值的映射。
- predict(X, return_std=False)[source]#
使用线性模型进行预测。
除了预测分布的均值外,还可以返回其标准差。
- 参数:
- X形状为 (n_samples, n_features) 的 {类数组,稀疏矩阵}
样本。
- return_stdbool,默认值=False
是否返回后验预测的标准差。
- 返回值:
- y_mean形状为 (n_samples,) 的类数组
查询点的预测分布均值。
- y_std形状为 (n_samples,) 的类数组
查询点的预测分布标准差。
- score(X, y, sample_weight=None)[source]#
返回预测的决定系数。
决定系数 \(R^2\) 定义为 \((1 - \frac{u}{v})\),其中 \(u\) 是残差平方和
((y_true - y_pred)** 2).sum()
,而 \(v\) 是总平方和((y_true - y_true.mean()) ** 2).sum()
。最佳分数为 1.0,也可能为负值(因为模型可以任意差)。一个始终预测y
期望值的常数模型(忽略输入特征)将获得 0.0 的 \(R^2\) 分数。- 参数:
- X形状为 (n_samples, n_features) 的类数组
测试样本。对于某些估计器,这可能是预计算的核矩阵或形状为
(n_samples, n_samples_fitted)
的泛型对象列表,其中n_samples_fitted
是估计器拟合中使用的样本数。- y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组
X
的真实值。- sample_weight形状为 (n_samples,) 的类数组,默认值=None
样本权重。
- 返回值:
- scorefloat
self.predict(X)
关于y
的 \(R^2\)。
备注
从 0.23 版本开始,调用回归器的
score
时使用的 \(R^2\) 分数使用multioutput='uniform_average'
,以保持与r2_score
的默认值一致。这会影响所有多输出回归器的score
方法(MultiOutputRegressor
除外)。
- set_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') BayesianRidge [source]#
请求传递给
fit
方法的元数据。请注意,只有在
enable_metadata_routing=True
时,此方法才相关(参见sklearn.set_config
)。请参阅用户指南了解路由机制的工作原理。每个参数的选项:
True
:请求元数据,如果提供则传递给fit
。如果未提供元数据,则忽略请求。False
:不请求元数据,元估计器不会将其传递给fit
。None
:不请求元数据,如果用户提供元数据,则元估计器将引发错误。str
:元数据应使用此给定的别名而不是原始名称传递给元估计器。
默认值(
sklearn.utils.metadata_routing.UNCHANGED
)保留现有的请求。这允许您更改某些参数的请求而不用更改其他参数。版本1.3中新增。
注意
仅当将此估计器用作元估计器的子估计器时(例如,在
Pipeline
中使用)此方法才相关。否则无效。- 参数:
- sample_weightstr、True、False 或 None,默认为 sklearn.utils.metadata_routing.UNCHANGED
fit
中sample_weight
参数的元数据路由。
- 返回值:
- self对象
更新后的对象。
- set_params(**params)[source]#
设置此估计器的参数。
此方法适用于简单的估计器以及嵌套对象(例如
Pipeline
)。后者具有<component>__<parameter>
形式的参数,因此可以更新嵌套对象的每个组件。- 参数:
- **paramsdict
估计器参数。
- 返回值:
- self估计器实例
估计器实例。
- set_predict_request(*, return_std: bool | None | str = '$UNCHANGED$') BayesianRidge [source]#
请求传递给
predict
方法的元数据。请注意,只有在
enable_metadata_routing=True
时,此方法才相关(参见sklearn.set_config
)。请参阅用户指南了解路由机制的工作原理。每个参数的选项:
True
:请求元数据,如果提供则传递给predict
。如果未提供元数据,则忽略请求。False
:不请求元数据,元估计器不会将其传递给predict
。None
:不请求元数据,如果用户提供元数据,则元估计器将引发错误。str
:元数据应使用此给定的别名而不是原始名称传递给元估计器。
默认值(
sklearn.utils.metadata_routing.UNCHANGED
)保留现有的请求。这允许您更改某些参数的请求而不用更改其他参数。版本1.3中新增。
注意
仅当将此估计器用作元估计器的子估计器时(例如,在
Pipeline
中使用)此方法才相关。否则无效。- 参数:
- return_stdstr、True、False 或 None,默认为 sklearn.utils.metadata_routing.UNCHANGED
predict
中return_std
参数的元数据路由。
- 返回值:
- self对象
更新后的对象。
- set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') BayesianRidge [source]#
请求传递给
score
方法的元数据。请注意,只有在
enable_metadata_routing=True
时,此方法才相关(参见sklearn.set_config
)。请参阅用户指南了解路由机制的工作原理。每个参数的选项:
True
:请求元数据,如果提供则传递给score
。如果未提供元数据,则忽略请求。False
:不请求元数据,元估计器不会将其传递给score
。None
:不请求元数据,如果用户提供元数据,则元估计器将引发错误。str
:元数据应使用此给定的别名而不是原始名称传递给元估计器。
默认值(
sklearn.utils.metadata_routing.UNCHANGED
)保留现有的请求。这允许您更改某些参数的请求而不用更改其他参数。版本1.3中新增。
注意
仅当将此估计器用作元估计器的子估计器时(例如,在
Pipeline
中使用)此方法才相关。否则无效。- 参数:
- sample_weightstr、True、False 或 None,默认为 sklearn.utils.metadata_routing.UNCHANGED
score
方法中sample_weight
参数的元数据路由。
- 返回值:
- self对象
更新后的对象。