真实数据集上的异常值检测#
此示例说明了在真实数据集上进行稳健协方差估计的必要性。这对于异常值检测和更好地理解数据结构都很有用。
我们从葡萄酒数据集中选择了两个包含两个变量的集合,作为说明可以使用多种异常值检测工具进行何种分析的示例。为了可视化的目的,我们使用的是二维示例,但应该注意的是,在高维情况下,事情并非如此简单,这一点将在后面指出。
在以下两个示例中,主要结果是经验协方差估计作为一种非稳健估计,受观测值异构结构的影响很大。尽管稳健协方差估计能够关注数据分布的主要模式,但它坚持假设数据应该服从高斯分布,从而对数据结构产生一些偏差估计,但在某种程度上仍然是准确的。一类支持向量机不假设数据分布的任何参数形式,因此可以更好地模拟数据的复杂形状。
# Author: Virgile Fritsch <[email protected]>
# License: BSD 3 clause
第一个示例#
第一个示例说明了当存在异常点时,最小协方差行列式稳健估计器如何帮助集中于相关聚类。这里,经验协方差估计受到主聚类外点的偏斜。当然,一些筛选工具会指出存在两个聚类(支持向量机、高斯混合模型、单变量异常值检测等)。但如果这是一个高维示例,则无法轻松应用这些工具。
from sklearn.covariance import EllipticEnvelope
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.svm import OneClassSVM
estimators = {
"Empirical Covariance": EllipticEnvelope(support_fraction=1.0, contamination=0.25),
"Robust Covariance (Minimum Covariance Determinant)": EllipticEnvelope(
contamination=0.25
),
"OCSVM": OneClassSVM(nu=0.25, gamma=0.35),
}
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
X = load_wine()["data"][:, [1, 2]] # two clusters
fig, ax = plt.subplots()
colors = ["tab:blue", "tab:orange", "tab:red"]
# Learn a frontier for outlier detection with several classifiers
legend_lines = []
for color, (name, estimator) in zip(colors, estimators.items()):
estimator.fit(X)
DecisionBoundaryDisplay.from_estimator(
estimator,
X,
response_method="decision_function",
plot_method="contour",
levels=[0],
colors=color,
ax=ax,
)
legend_lines.append(mlines.Line2D([], [], color=color, label=name))
ax.scatter(X[:, 0], X[:, 1], color="black")
bbox_args = dict(boxstyle="round", fc="0.8")
arrow_args = dict(arrowstyle="->")
ax.annotate(
"outlying points",
xy=(4, 2),
xycoords="data",
textcoords="data",
xytext=(3, 1.25),
bbox=bbox_args,
arrowprops=arrow_args,
)
ax.legend(handles=legend_lines, loc="upper center")
_ = ax.set(
xlabel="ash",
ylabel="malic_acid",
title="Outlier detection on a real data set (wine recognition)",
)
第二个示例#
第二个示例展示了最小协方差行列式稳健协方差估计器集中于数据分布主要模式的能力:尽管由于香蕉形分布,协方差难以估计,但位置似乎估计得很好。无论如何,我们可以摆脱一些异常观测值。一类支持向量机能够捕获真实的数据结构,但困难在于调整其核带宽参数,以便在数据散布矩阵的形状和过度拟合数据的风险之间取得良好的折衷。
X = load_wine()["data"][:, [6, 9]] # "banana"-shaped
fig, ax = plt.subplots()
colors = ["tab:blue", "tab:orange", "tab:red"]
# Learn a frontier for outlier detection with several classifiers
legend_lines = []
for color, (name, estimator) in zip(colors, estimators.items()):
estimator.fit(X)
DecisionBoundaryDisplay.from_estimator(
estimator,
X,
response_method="decision_function",
plot_method="contour",
levels=[0],
colors=color,
ax=ax,
)
legend_lines.append(mlines.Line2D([], [], color=color, label=name))
ax.scatter(X[:, 0], X[:, 1], color="black")
ax.legend(handles=legend_lines, loc="upper center")
ax.set(
xlabel="flavanoids",
ylabel="color_intensity",
title="Outlier detection on a real data set (wine recognition)",
)
plt.show()
脚本总运行时间:(0 分钟 0.435 秒)
相关示例
比较玩具数据集上用于异常值检测的异常检测算法
使用局部异常因子 (LOF) 进行异常值检测
具有协方差椭球的线性和二次判别分析
稳健协方差估计与经验协方差估计