IsolationForest 示例#

一个使用 IsolationForest 进行异常检测的示例。

隔离森林 是一个“隔离树”的集合,它通过递归随机划分来“隔离”观测值,可以用树结构来表示。隔离异常值所需的分割次数较少,而隔离正常值所需的分割次数较多。

在本例中,我们将演示两种方法来可视化在玩具数据集上训练的隔离森林的决策边界。

数据生成#

我们通过随机采样 numpy.random.randn 返回的标准正态分布来生成两个聚类(每个聚类包含 n_samples 个样本)。其中一个是球形的,另一个稍微变形。

为了与 IsolationForest 符号保持一致,正常值(即高斯聚类)被分配了一个真实标签 1,而异常值(使用 numpy.random.uniform 创建)被分配了标签 -1

import numpy as np

from sklearn.model_selection import train_test_split

n_samples, n_outliers = 120, 40
rng = np.random.RandomState(0)
covariance = np.array([[0.5, -0.1], [0.7, 0.4]])
cluster_1 = 0.4 * rng.randn(n_samples, 2) @ covariance + np.array([2, 2])  # general
cluster_2 = 0.3 * rng.randn(n_samples, 2) + np.array([-2, -2])  # spherical
outliers = rng.uniform(low=-4, high=4, size=(n_outliers, 2))

X = np.concatenate([cluster_1, cluster_2, outliers])
y = np.concatenate(
    [np.ones((2 * n_samples), dtype=int), -np.ones((n_outliers), dtype=int)]
)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

我们可以可视化生成的聚类

import matplotlib.pyplot as plt

scatter = plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
handles, labels = scatter.legend_elements()
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.title("Gaussian inliers with \nuniformly distributed outliers")
plt.show()
Gaussian inliers with  uniformly distributed outliers

模型训练#

from sklearn.ensemble import IsolationForest

clf = IsolationForest(max_samples=100, random_state=0)
clf.fit(X_train)
IsolationForest(max_samples=100, random_state=0)
在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示形式,或者信任笔记本。
在 GitHub 上,HTML 表示形式无法呈现,请尝试使用 nbviewer.org 加载此页面。


绘制离散决策边界#

我们使用 DecisionBoundaryDisplay 类来可视化离散决策边界。背景颜色表示该区域中的样本是否被预测为异常值。散点图显示真实标签。

import matplotlib.pyplot as plt

from sklearn.inspection import DecisionBoundaryDisplay

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="predict",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Binary decision boundary \nof IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.show()
Binary decision boundary  of IsolationForest

绘制路径长度决策边界#

通过设置 response_method="decision_function"DecisionBoundaryDisplay 的背景表示观测值的正态性度量。该分数由随机森林上的平均路径长度给出,而路径长度本身由隔离给定样本所需的叶子深度(或等效的分割次数)给出。

当随机森林共同产生较短的路径长度来隔离某些特定样本时,它们很可能是异常值,并且正态性度量接近于 0。类似地,较长的路径对应于接近于 1 的值,并且更有可能是正常值。

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="decision_function",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Path length decision boundary \nof IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.colorbar(disp.ax_.collections[1])
plt.show()
Path length decision boundary  of IsolationForest

**脚本总运行时间:**(0 分钟 0.594 秒)

相关示例

二分类 AdaBoost

二分类 AdaBoost

比较玩具数据集上用于异常值检测的异常检测算法

比较玩具数据集上用于异常值检测的异常检测算法

最近邻分类

最近邻分类

绘制验证曲线

绘制验证曲线

由 Sphinx-Gallery 生成的图库