1.3. 核岭回归#

核岭回归 (KRR) [M2012] 结合了 岭回归和分类(具有 l2 范数正则化的线性最小二乘法)和 核技巧。因此,它学习由相应核和数据诱导的空间中的线性函数。对于非线性核,这对应于原始空间中的非线性函数。

KernelRidge 学习的模型形式与支持向量回归 (SVR) 相同。但是,使用了不同的损失函数:KRR 使用平方误差损失,而支持向量回归使用 \(\epsilon\) 不敏感损失,两者都结合了 l2 正则化。与 SVR 相比,KernelRidge 的拟合可以封闭形式完成,并且对于中等大小的数据集通常更快。另一方面,学习到的模型是非稀疏的,因此比 SVR (对于 \(\epsilon > 0\) 学习稀疏模型) 在预测时慢。

下图比较了 KernelRidgeSVR 在一个人工数据集上的表现,该数据集由正弦目标函数和添加到每五个数据点的强噪声组成。绘制了 KernelRidgeSVR 的学习模型,其中 RBF 核的复杂度/正则化和带宽都已使用网格搜索进行了优化。学习到的函数非常相似;但是,KernelRidge 的拟合速度大约是 SVR 的七倍(两者都使用网格搜索)。然而,使用 SVR 预测 100000 个目标值的速度要快三倍以上,因为它只使用大约 1/3 的 100 个训练数据点作为支持向量学习了一个稀疏模型。

../_images/sphx_glr_plot_kernel_ridge_regression_001.png

下图比较了不同训练集大小下 KernelRidgeSVR 的拟合和预测时间。对于中等大小的训练集(少于 1000 个样本),KernelRidge 的拟合速度快于 SVR;然而,对于更大的训练集,SVR 的扩展性更好。关于预测时间,由于学习到的稀疏解,SVR 在所有训练集大小下都比 KernelRidge 快。需要注意的是,稀疏程度以及由此产生的预测时间取决于 SVR 的参数 \(\epsilon\)\(C\)\(\epsilon = 0\) 将对应于一个稠密模型。

../_images/sphx_glr_plot_kernel_ridge_regression_002.png

示例

参考文献

[M2012]

“机器学习:概率视角” Murphy, K. P. - 第 14.4.3 章,第 492-493 页,麻省理工学院出版社,2012 年