1.3. 核岭回归#

核岭回归 (KRR) [M2012]岭回归和分类(带有 l2 范数正则化的线性最小二乘)与 核技巧 相结合。因此,它在由相应核和数据诱导的空间中学习线性函数。对于非线性核,这对应于原始空间中的非线性函数。

KernelRidge 学习的模型形式与支持向量回归 (SVR) 相同。但是,使用了不同的损失函数:KRR 使用平方误差损失,而支持向量回归使用 \(\epsilon\) 不敏感损失,两者都与 l2 正则化相结合。与 SVR 相比,拟合 KernelRidge 可以通过闭式解完成,并且通常对于中等规模的数据集来说更快。另一方面,学习到的模型是非稀疏的,因此比 SVR 慢,后者在预测时学习稀疏模型,用于 \(\epsilon > 0\)

下图比较了 KernelRidgeSVR 在一个人工数据集上的表现,该数据集包含一个正弦目标函数,并且每五个数据点都添加了强噪声。绘制了 KernelRidgeSVR 的学习模型,其中 RBF 核的复杂度/正则化和带宽都使用网格搜索进行了优化。学习到的函数非常相似;然而,拟合 KernelRidge 的速度大约是拟合 SVR 的速度的七倍(两者都使用网格搜索)。然而,使用 SVR 预测 100000 个目标值的速度要比使用 KernelRidge 快三倍以上,因为它只使用大约 1/3 的 100 个训练数据点作为支持向量学习了一个稀疏模型。

../_images/sphx_glr_plot_kernel_ridge_regression_001.png

下一张图比较了 KernelRidgeSVR 在不同大小的训练集上的拟合和预测时间。对于中等大小的训练集(少于 1000 个样本),拟合 KernelRidgeSVR 快;然而,对于更大的训练集,SVR 的扩展性更好。关于预测时间,由于学习到的稀疏解,SVRKernelRidge 在所有大小的训练集上都更快。请注意,稀疏程度以及预测时间取决于 SVR 的参数 \(\epsilon\)\(C\)\(\epsilon = 0\) 将对应于一个密集模型。

../_images/sphx_glr_plot_kernel_ridge_regression_002.png

示例

参考文献

[M2012]

“机器学习:概率视角” Murphy, K. P. - 第 14.4.3 章,第 492-493 页,麻省理工学院出版社,2012 年