多项式和样条插值#

本示例演示如何通过使用岭回归,使用最高次数为 degree 的多项式来逼近函数。对于给定的 n_samples 个一维点 x_i,我们展示了两种不同的方法

  • PolynomialFeatures 生成最高次数为 degree 的所有单项式。这为我们提供了具有 n_samples 行和 degree + 1 列的范德蒙矩阵

    [[1, x_0, x_0 ** 2, x_0 ** 3, ..., x_0 ** degree],
     [1, x_1, x_1 ** 2, x_1 ** 3, ..., x_1 ** degree],
     ...]
    

    直观地说,可以将此矩阵解释为伪特征矩阵(点 raised to some power)。该矩阵类似于(但不同于)多项式核诱导的矩阵。

  • SplineTransformer 生成 B 样条基函数。B 样条的基函数是次数为 degree 的分段多项式函数,仅在 degree+1 个连续节点之间非零。给定 n_knots 个节点数,这将生成具有 n_samples 行和 n_knots + degree - 1 列的矩阵

    [[basis_1(x_0), basis_2(x_0), ...],
     [basis_1(x_1), basis_2(x_1), ...],
     ...]
    

本示例表明,这两个变换器非常适合使用线性模型对非线性效应进行建模,并使用管道添加非线性特征。核方法扩展了这一思想,并且可以诱导非常高(甚至无限)维的特征空间。

# Author: Mathieu Blondel
#         Jake Vanderplas
#         Christian Lorentzen
#         Malte Londschien
# License: BSD 3 clause

import matplotlib.pyplot as plt
import numpy as np

from sklearn.linear_model import Ridge
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures, SplineTransformer

我们首先定义一个我们要逼近的函数,并准备对其进行绘图。

def f(x):
    """Function to be approximated by polynomial interpolation."""
    return x * np.sin(x)


# whole range we want to plot
x_plot = np.linspace(-1, 11, 100)

为了使其更有趣,我们只提供一小部分点进行训练。

x_train = np.linspace(0, 10, 100)
rng = np.random.RandomState(0)
x_train = np.sort(rng.choice(x_train, size=20, replace=False))
y_train = f(x_train)

# create 2D-array versions of these arrays to feed to transformers
X_train = x_train[:, np.newaxis]
X_plot = x_plot[:, np.newaxis]

现在我们准备创建多项式特征和样条,拟合训练点并显示它们的插值效果。

# plot function
lw = 2
fig, ax = plt.subplots()
ax.set_prop_cycle(
    color=["black", "teal", "yellowgreen", "gold", "darkorange", "tomato"]
)
ax.plot(x_plot, f(x_plot), linewidth=lw, label="ground truth")

# plot training points
ax.scatter(x_train, y_train, label="training points")

# polynomial features
for degree in [3, 4, 5]:
    model = make_pipeline(PolynomialFeatures(degree), Ridge(alpha=1e-3))
    model.fit(X_train, y_train)
    y_plot = model.predict(X_plot)
    ax.plot(x_plot, y_plot, label=f"degree {degree}")

# B-spline with 4 + 3 - 1 = 6 basis functions
model = make_pipeline(SplineTransformer(n_knots=4, degree=3), Ridge(alpha=1e-3))
model.fit(X_train, y_train)

y_plot = model.predict(X_plot)
ax.plot(x_plot, y_plot, label="B-spline")
ax.legend(loc="lower center")
ax.set_ylim(-20, 10)
plt.show()
plot polynomial interpolation

这很好地表明,更高次的多项式可以更好地拟合数据。但与此同时,过高的幂次可能会出现不希望的振荡行为,并且对于超出拟合数据范围的外推法尤其危险。这是 B 样条的优势。它们通常像多项式一样拟合数据,并表现出非常漂亮和平滑的行为。它们还具有控制外推的良好选择,默认情况下以外推法继续使用常数。请注意,大多数情况下,您宁愿增加节点数,但保持 degree=3

为了更深入地了解生成的特征基,我们分别绘制了两个变换器的所有列。

fig, axes = plt.subplots(ncols=2, figsize=(16, 5))
pft = PolynomialFeatures(degree=3).fit(X_train)
axes[0].plot(x_plot, pft.transform(X_plot))
axes[0].legend(axes[0].lines, [f"degree {n}" for n in range(4)])
axes[0].set_title("PolynomialFeatures")

splt = SplineTransformer(n_knots=4, degree=3).fit(X_train)
axes[1].plot(x_plot, splt.transform(X_plot))
axes[1].legend(axes[1].lines, [f"spline {n}" for n in range(6)])
axes[1].set_title("SplineTransformer")

# plot knots of spline
knots = splt.bsplines_[0].t
axes[1].vlines(knots[3:-3], ymin=0, ymax=0.8, linestyles="dashed")
plt.show()
PolynomialFeatures, SplineTransformer

在左图中,我们识别了对应于从 x**0x**3 的简单单项式的线。在右图中,我们看到了 degree=3 的六个 B 样条基函数,以及在 fit 期间选择的四个节点位置。请注意,在拟合区间的左侧和右侧分别有 degree 个额外的节点。这些节点是出于技术原因而存在的,因此我们没有显示它们。每个基函数都有局部支持,并在拟合范围之外继续作为常数。这种外推行为可以通过参数 extrapolation 进行更改。

周期性样条#

在前面的示例中,我们看到了多项式和样条曲线在训练观测值范围之外进行外推的局限性。在某些情况下,例如存在季节性影响时,我们预计潜在信号会周期性地持续下去。可以使用周期性样条曲线对这种影响进行建模,周期性样条曲线在第一个和最后一个节点处具有相等的函数值和相等的导数。在以下情况下,我们将展示在给定周期性附加信息的情况下,周期性样条曲线如何在训练数据范围内外提供更好的拟合。样条曲线的周期是第一个和最后一个节点之间的距离,我们手动指定。

周期性样条曲线对于自然周期性特征(例如一年中的某一天)也很有用,因为边界节点处的平滑度可以防止变换后的值出现跳跃(例如,从 12 月 31 日到 1 月 1 日)。对于此类自然周期性特征或更一般地已知周期的特征,建议通过手动设置节点来将此信息显式传递给 SplineTransformer

def g(x):
    """Function to be approximated by periodic spline interpolation."""
    return np.sin(x) - 0.7 * np.cos(x * 3)


y_train = g(x_train)

# Extend the test data into the future:
x_plot_ext = np.linspace(-1, 21, 200)
X_plot_ext = x_plot_ext[:, np.newaxis]

lw = 2
fig, ax = plt.subplots()
ax.set_prop_cycle(color=["black", "tomato", "teal"])
ax.plot(x_plot_ext, g(x_plot_ext), linewidth=lw, label="ground truth")
ax.scatter(x_train, y_train, label="training points")

for transformer, label in [
    (SplineTransformer(degree=3, n_knots=10), "spline"),
    (
        SplineTransformer(
            degree=3,
            knots=np.linspace(0, 2 * np.pi, 10)[:, None],
            extrapolation="periodic",
        ),
        "periodic spline",
    ),
]:
    model = make_pipeline(transformer, Ridge(alpha=1e-3))
    model.fit(X_train, y_train)
    y_plot_ext = model.predict(X_plot_ext)
    ax.plot(x_plot_ext, y_plot_ext, label=label)

ax.legend()
fig.show()
plot polynomial interpolation
fig, ax = plt.subplots()
knots = np.linspace(0, 2 * np.pi, 4)
splt = SplineTransformer(knots=knots[:, None], degree=3, extrapolation="periodic").fit(
    X_train
)
ax.plot(x_plot_ext, splt.transform(X_plot_ext))
ax.legend(ax.lines, [f"spline {n}" for n in range(3)])
plt.show()
plot polynomial interpolation

**脚本总运行时间:**(0 分钟 0.490 秒)

相关示例

比较线性贝叶斯回归器

比较线性贝叶斯回归器

与时间相关的特征工程

与时间相关的特征工程

欠拟合与过拟合

欠拟合与过拟合

scikit-learn 1.0 版本亮点

scikit-learn 1.0 版本亮点

由 Sphinx-Gallery 生成的图库