RBF SVM 参数#

本示例说明了径向基函数 (RBF) 核 SVM 的参数 gammaC 的影响。

直观地说,gamma 参数定义了单个训练样本的影响范围有多远,较低的值表示“远”,较高值表示“近”。gamma 参数可以看作是模型选为支持向量的样本影响半径的倒数。

C 参数权衡了训练样本的正确分类与决策函数边界的最大化。对于较大的 C 值,如果决策函数能够更好地对所有训练点进行正确分类,则会接受较小的边界。较低的 C 值将鼓励更大的边界,因此更简单的决策函数,但会以训练精度为代价。换句话说,C 在 SVM 中充当正则化参数。

第一个图是在一个简化的分类问题上,针对各种参数值对决策函数进行可视化,该问题仅涉及 2 个输入特征和 2 个可能的目标类别(二元分类)。请注意,对于具有更多特征或目标类别的問題,这种类型的图是不可能绘制的。

第二个图是分类器交叉验证精度的热图,它是 Cgamma 的函数。在本示例中,为了说明目的,我们探索了一个相对较大的网格。在实践中,从 \(10^{-3}\)\(10^3\) 的对数网格通常就足够了。如果最佳参数位于网格的边界上,则可以在后续搜索中将网格扩展到该方向。

请注意,热图有一个特殊的颜色条,其中点值接近最佳性能模型的分数值,以便能够一目了然地识别它们。

模型的行为对 gamma 参数非常敏感。如果 gamma 太大,支持向量的影响区域的半径仅包含支持向量本身,并且使用 C 进行任何程度的正则化都无法防止过拟合。

gamma 非常小时,模型过于受限,无法捕捉数据的复杂性或“形状”。任何选定支持向量的影响区域都将包含整个训练集。生成的模型的行为将类似于线性模型,该模型具有一组超平面,这些超平面将任何两类的中心分开。

对于中间值,我们可以在第二个图上看到,可以在 Cgamma 的对角线上找到良好的模型。可以通过增加对正确分类每个点的重视程度(更大的 C 值)来使平滑模型(较低的 gamma 值)变得更加复杂,因此,良好的性能模型的对角线。

最后,还可以观察到,对于 gamma 的某些中间值,当 C 变得非常大时,我们会得到性能相同的模型。这表明支持向量的集合不再改变。RBF 核的半径本身充当良好的结构正则化器。进一步增加 C 不会有任何帮助,可能是因为没有更多违反的训练点(在边界内或错误分类),或者至少找不到更好的解决方案。分数相等的情况下,使用较小的 C 值可能更有意义,因为非常高的 C 值通常会增加拟合时间。

另一方面,较低的 C 值通常会导致更多支持向量,这可能会增加预测时间。因此,降低 C 的值涉及拟合时间和预测时间之间的权衡。

我们还应该注意到,分数的微小差异是由于交叉验证过程的随机拆分造成的。可以通过增加 CV 迭代次数 n_splits 来平滑这些虚假变化,但会以计算时间为代价。增加 C_rangegamma_range 步数的值将提高超参数热图的分辨率。

用于将颜色图的中间点移动到感兴趣的值附近的实用程序类。

import numpy as np
from matplotlib.colors import Normalize


class MidpointNormalize(Normalize):
    def __init__(self, vmin=None, vmax=None, midpoint=None, clip=False):
        self.midpoint = midpoint
        Normalize.__init__(self, vmin, vmax, clip)

    def __call__(self, value, clip=None):
        x, y = [self.vmin, self.midpoint, self.vmax], [0, 0.5, 1]
        return np.ma.masked_array(np.interp(value, x, y))

加载并准备数据集#

用于网格搜索的数据集

from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

用于决策函数可视化的数据集:我们只保留 X 中的前两个特征,并对数据集进行子采样,只保留 2 个类别,使其成为二元分类问题。

X_2d = X[:, :2]
X_2d = X_2d[y > 0]
y_2d = y[y > 0]
y_2d -= 1

通常,为 SVM 训练缩放数据是一个好主意。在本示例中,我们有点作弊,对所有数据进行缩放,而不是将变换拟合到训练集上,然后只将其应用到测试集上。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X = scaler.fit_transform(X)
X_2d = scaler.fit_transform(X_2d)

训练分类器#

对于初始搜索,以 10 为底的对数网格通常很有帮助。使用以 2 为底的网格,可以实现更精细的调整,但成本要高得多。

from sklearn.model_selection import GridSearchCV, StratifiedShuffleSplit
from sklearn.svm import SVC

C_range = np.logspace(-2, 10, 13)
gamma_range = np.logspace(-9, 3, 13)
param_grid = dict(gamma=gamma_range, C=C_range)
cv = StratifiedShuffleSplit(n_splits=5, test_size=0.2, random_state=42)
grid = GridSearchCV(SVC(), param_grid=param_grid, cv=cv)
grid.fit(X, y)

print(
    "The best parameters are %s with a score of %0.2f"
    % (grid.best_params_, grid.best_score_)
)
The best parameters are {'C': 1.0, 'gamma': 0.09999999999999999} with a score of 0.97

现在,我们需要为 2D 版本中的所有参数拟合一个分类器(我们在这里使用较小的参数集,因为训练需要一段时间)

C_2d_range = [1e-2, 1, 1e2]
gamma_2d_range = [1e-1, 1, 1e1]
classifiers = []
for C in C_2d_range:
    for gamma in gamma_2d_range:
        clf = SVC(C=C, gamma=gamma)
        clf.fit(X_2d, y_2d)
        classifiers.append((C, gamma, clf))

可视化#

绘制参数影响的可视化

import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))
xx, yy = np.meshgrid(np.linspace(-3, 3, 200), np.linspace(-3, 3, 200))
for k, (C, gamma, clf) in enumerate(classifiers):
    # evaluate decision function in a grid
    Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    # visualize decision function for these parameters
    plt.subplot(len(C_2d_range), len(gamma_2d_range), k + 1)
    plt.title("gamma=10^%d, C=10^%d" % (np.log10(gamma), np.log10(C)), size="medium")

    # visualize parameter's effect on decision function
    plt.pcolormesh(xx, yy, -Z, cmap=plt.cm.RdBu)
    plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y_2d, cmap=plt.cm.RdBu_r, edgecolors="k")
    plt.xticks(())
    plt.yticks(())
    plt.axis("tight")

scores = grid.cv_results_["mean_test_score"].reshape(len(C_range), len(gamma_range))
gamma=10^-1, C=10^-2, gamma=10^0, C=10^-2, gamma=10^1, C=10^-2, gamma=10^-1, C=10^0, gamma=10^0, C=10^0, gamma=10^1, C=10^0, gamma=10^-1, C=10^2, gamma=10^0, C=10^2, gamma=10^1, C=10^2

绘制验证精度作为 gamma 和 C 函数的热图

分数使用热颜色图进行编码,该颜色图从深红色到亮黄色变化。由于最有趣的分数都位于 0.92 到 0.97 范围内,因此我们使用自定义归一化器将中点设置为 0.92,以便更容易地可视化有趣范围内分数值的微小变化,同时不会将所有低分数值粗暴地压缩到相同的颜色。

plt.figure(figsize=(8, 6))
plt.subplots_adjust(left=0.2, right=0.95, bottom=0.15, top=0.95)
plt.imshow(
    scores,
    interpolation="nearest",
    cmap=plt.cm.hot,
    norm=MidpointNormalize(vmin=0.2, midpoint=0.92),
)
plt.xlabel("gamma")
plt.ylabel("C")
plt.colorbar()
plt.xticks(np.arange(len(gamma_range)), gamma_range, rotation=45)
plt.yticks(np.arange(len(C_range)), C_range)
plt.title("Validation accuracy")
plt.show()
Validation accuracy

脚本的总运行时间:(0 分钟 5.251 秒)

相关示例

绘制验证曲线

绘制验证曲线

半监督分类器与 SVM 在 Iris 数据集上的决策边界

半监督分类器与 SVM 在 Iris 数据集上的决策边界

用不同的 SVM 核绘制分类边界

用不同的 SVM 核绘制分类边界

SVM:加权样本

SVM:加权样本

由 Sphinx-Gallery 生成的图库