1.3. 核岭回归#
核岭回归 (KRR) [M2012] 将 岭回归和分类(带有 l2 范数正则化的线性最小二乘)与 核技巧 相结合。因此,它在由相应核和数据诱导的空间中学习线性函数。对于非线性核,这对应于原始空间中的非线性函数。
由 KernelRidge
学习的模型形式与支持向量回归 (SVR
) 相同。但是,使用了不同的损失函数:KRR 使用平方误差损失,而支持向量回归使用 \(\epsilon\) 不敏感损失,两者都与 l2 正则化相结合。与 SVR
相比,拟合 KernelRidge
可以通过闭式解完成,并且通常对于中等规模的数据集来说更快。另一方面,学习到的模型是非稀疏的,因此比 SVR
慢,后者在预测时学习稀疏模型,用于 \(\epsilon > 0\)。
下图比较了 KernelRidge
和 SVR
在一个人工数据集上的表现,该数据集包含一个正弦目标函数,并且每五个数据点都添加了强噪声。绘制了 KernelRidge
和 SVR
的学习模型,其中 RBF 核的复杂度/正则化和带宽都使用网格搜索进行了优化。学习到的函数非常相似;然而,拟合 KernelRidge
的速度大约是拟合 SVR
的速度的七倍(两者都使用网格搜索)。然而,使用 SVR
预测 100000 个目标值的速度要比使用 KernelRidge
快三倍以上,因为它只使用大约 1/3 的 100 个训练数据点作为支持向量学习了一个稀疏模型。
下一张图比较了 KernelRidge
和 SVR
在不同大小的训练集上的拟合和预测时间。对于中等大小的训练集(少于 1000 个样本),拟合 KernelRidge
比 SVR
快;然而,对于更大的训练集,SVR
的扩展性更好。关于预测时间,由于学习到的稀疏解,SVR
比 KernelRidge
在所有大小的训练集上都更快。请注意,稀疏程度以及预测时间取决于 SVR
的参数 \(\epsilon\) 和 \(C\);\(\epsilon = 0\) 将对应于一个密集模型。
示例
参考文献
“机器学习:概率视角” Murphy, K. P. - 第 14.4.3 章,第 492-493 页,麻省理工学院出版社,2012 年