注意
转到末尾 下载完整的示例代码。或者通过JupyterLite或Binder在浏览器中运行此示例。
最近邻分类#
此示例演示如何使用 KNeighborsClassifier
。我们使用此分类器对鸢尾花数据集进行训练,并观察根据参数weights
获得的决策边界的差异。
# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause
加载数据#
在此示例中,我们使用鸢尾花数据集。我们将数据分成训练数据集和测试数据集。
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris(as_frame=True)
X = iris.data[["sepal length (cm)", "sepal width (cm)"]]
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
K近邻分类器#
我们想使用一个K近邻分类器,考虑一个包含11个数据点的邻域。由于我们的K近邻模型使用欧几里得距离来查找最近邻,因此预先缩放数据非常重要。有关更详细信息,请参阅题为特征缩放的重要性的示例。
因此,我们使用Pipeline
在使用分类器之前连接一个缩放器。
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
clf = Pipeline(
steps=[("scaler", StandardScaler()), ("knn", KNeighborsClassifier(n_neighbors=11))]
)
决策边界#
现在,我们使用参数weights
的不同值拟合两个分类器。我们绘制每个分类器的决策边界以及原始数据集以观察差异。
import matplotlib.pyplot as plt
from sklearn.inspection import DecisionBoundaryDisplay
_, axs = plt.subplots(ncols=2, figsize=(12, 5))
for ax, weights in zip(axs, ("uniform", "distance")):
clf.set_params(knn__weights=weights).fit(X_train, y_train)
disp = DecisionBoundaryDisplay.from_estimator(
clf,
X_test,
response_method="predict",
plot_method="pcolormesh",
xlabel=iris.feature_names[0],
ylabel=iris.feature_names[1],
shading="auto",
alpha=0.5,
ax=ax,
)
scatter = disp.ax_.scatter(X.iloc[:, 0], X.iloc[:, 1], c=y, edgecolors="k")
disp.ax_.legend(
scatter.legend_elements()[0],
iris.target_names,
loc="lower left",
title="Classes",
)
_ = disp.ax_.set_title(
f"3-Class classification\n(k={clf[-1].n_neighbors}, weights={weights!r})"
)
plt.show()
结论#
我们观察到参数weights
会影响决策边界。当weights="unifom"
时,所有最近邻对决策的影响相同。而当weights="distance"
时,赋予每个邻域的权重与该邻域到查询点的距离的倒数成正比。
在某些情况下,考虑距离可能会改进模型。
脚本总运行时间:(0分钟0.541秒)
相关示例
最近邻回归
比较使用和不使用邻域成分分析的最近邻
缓存最近邻
Iris 数据集上的主成分分析 (PCA)