2.2. 流形学习#

寻找最基本的必需品
那些简单的必需品
忘掉你的烦恼和争吵
我指的是最基本的必需品
大自然母亲的秘方
它们带来生活的必需品

– 巴鲁的歌 [《丛林之书》]

../_images/sphx_glr_plot_compare_methods_001.png

流形学习是一种非线性降维方法。用于此任务的算法基于这样的思想：许多数据集的维度只是人为地高。

2.2.1. 简介#

高维数据集可能非常难以可视化。虽然二维或三维数据可以通过绘图来显示数据的固有结构，但等效的高维绘图则远不如直观。为了帮助可视化数据集的结构，必须以某种方式降低维度。

实现这种降维的最简单方法是对数据进行随机投影。尽管这在一定程度上允许可视化数据结构，但这种选择的随机性仍有许多不足之处。在随机投影中，数据中更具趣味性的结构很可能会丢失。

为了解决这一问题，已经设计了许多监督和无监督的线性降维框架，例如主成分分析（PCA）、独立成分分析、线性判别分析等。这些算法定义了特定的规则来选择数据的“有趣”线性投影。这些方法可能很强大，但通常会忽略数据中重要的非线性结构。

流形学习可以被认为是尝试将PCA等线性框架推广，使其对数据中的非线性结构敏感。尽管存在监督变体，但典型的流形学习问题是无监督的：它从数据本身学习数据的高维结构，而不使用预定的分类。

示例

有关手写数字降维的示例，请参阅手写数字上的流形学习：局部线性嵌入、Isomap...。
有关玩具“S曲线”数据集降维的示例，请参阅流形学习方法比较。
有关使用流形学习根据历史股票价格映射股票市场结构的示例，请参阅可视化股票市场结构。
有关将流形学习技术应用于球形数据集的示例，请参阅截断球体上的流形学习方法。
有关在瑞士卷数据集上使用流形学习技术的示例，请参阅瑞士卷和瑞士孔降维。

scikit-learn 中可用的流形学习实现总结如下

2.2.2. Isomap#

流形学习最早的方法之一是 Isomap 算法，即等距映射（Isometric Mapping）的缩写。Isomap 可以被视为多维尺度变换（MDS）或核PCA的扩展。Isomap 旨在找到一个低维嵌入，该嵌入能保持所有点之间的测地距离。Isomap 可以通过对象 Isomap 进行。

../_images/sphx_glr_plot_lle_digits_005.png

参考文献

“非线性降维的全局几何框架” Tenenbaum, J.B.; De Silva, V.; & Langford, J.C. Science 290 (5500)

2.2.3. 局部线性嵌入#

局部线性嵌入（LLE）旨在寻找数据的低维投影，该投影能保留局部邻域内的距离。它可被视为一系列局部主成分分析，这些分析经过全局比较以找到最佳非线性嵌入。

局部线性嵌入可以通过函数 locally_linear_embedding 或其面向对象的对应类 LocallyLinearEmbedding 来执行。

../_images/sphx_glr_plot_lle_digits_006.png

参考文献

“通过局部线性嵌入进行非线性降维” Roweis, S. & Saul, L. Science 290:2323 (2000)

2.2.4. 修正局部线性嵌入#

LLE 的一个众所周知的问题是正则化问题。当邻居数量大于输入维度数量时，定义每个局部邻域的矩阵是秩亏的。为了解决这个问题，标准 LLE 应用了一个任意的正则化参数 \(r\)，该参数是相对于局部权重矩阵的迹选取的。尽管可以形式化地证明当 \(r \to 0\) 时，解收敛到所需的嵌入，但不能保证在 \(r > 0\) 时能找到最优解。这个问题表现在扭曲流形底层几何结构的嵌入中。

解决正则化问题的一种方法是在每个邻域中使用多个权重向量。这是修正局部线性嵌入（MLLE）的精髓。MLLE 可以通过函数 locally_linear_embedding 或其面向对象的对应类 LocallyLinearEmbedding 来执行，使用关键字 method = 'modified'。它要求 n_neighbors > n_components。

../_images/sphx_glr_plot_lle_digits_007.png

参考文献

“MLLE: 使用多个权重的修正局部线性嵌入” Zhang, Z. & Wang, J.

2.2.5. 海森特征映射#

海森特征映射（也称为基于海森的 LLE：HLLE）是解决 LLE 正则化问题的另一种方法。它围绕每个邻域的海森二次型展开，该二次型用于恢复局部线性结构。尽管其他实现注意到其在数据大小方面的扩展性不佳，但 sklearn 实施了一些算法改进，使其成本对于小输出维度而言与其他 LLE 变体相当。HLLE 可以通过函数 locally_linear_embedding 或其面向对象的对应类 LocallyLinearEmbedding 来执行，使用关键字 method = 'hessian'。它要求 n_neighbors > n_components * (n_components + 3) / 2。

../_images/sphx_glr_plot_lle_digits_008.png

参考文献

“海森特征映射：用于高维数据的局部线性嵌入技术” Donoho, D. & Grimes, C. Proc Natl Acad Sci USA. 100:5591 (2003)

2.2.6. 谱嵌入#

谱嵌入是一种计算非线性嵌入的方法。Scikit-learn 实现了拉普拉斯特征映射，该方法使用图拉普拉斯算子的谱分解来找到数据的低维表示。生成的图可以被视为高维空间中低维流形的离散近似。基于图的成本函数最小化可确保流形上彼此接近的点在低维空间中也被映射为彼此接近，从而保留局部距离。谱嵌入可以通过函数 spectral_embedding 或其面向对象的对应类 SpectralEmbedding 来执行。

参考文献

“用于降维和数据表示的拉普拉斯特征映射” M. Belkin, P. Niyogi, Neural Computation, 2003 年 6 月; 15 (6):1373-1396

2.2.7. 局部切空间对齐#

尽管局部切空间对齐（LTSA）在技术上并非 LLE 的变体，但其算法与 LLE 足够相似，可归入此类。LTSA 不像 LLE 那样侧重于保留邻域距离，而是通过其切空间表征每个邻域的局部几何结构，并执行全局优化以对齐这些局部切空间来学习嵌入。LTSA 可以通过函数 locally_linear_embedding 或其面向对象的对应类 LocallyLinearEmbedding 来执行，使用关键字 method = 'ltsa'。

../_images/sphx_glr_plot_lle_digits_009.png

参考文献

“通过切空间对齐的主流形和非线性降维” Zhang, Z. & Zha, H. Journal of Shanghai Univ. 8:406 (2004)

2.2.8. 多维尺度变换 (MDS)#

多维尺度变换（MDS）旨在寻找数据的低维表示，其中距离能够很好地反映原始高维空间中的距离。

通常，MDS 是一种用于分析相异度数据的技术。它试图将相异度建模为欧几里得空间中的距离。数据可以是物体之间的相异度评级、分子相互作用频率或国家之间的贸易指数。

MDS 算法有两种类型：度量型和非度量型。在 scikit-learn 中，类 MDS 同时实现了这两种。在度量 MDS 中，嵌入空间中的距离被设置为尽可能接近相异度数据。在非度量版本中，算法将尝试保留距离的顺序，从而寻求嵌入空间中的距离与输入相异度之间的单调关系。

../_images/sphx_glr_plot_lle_digits_010.png

令 \(\delta_{ij}\) 为 \(n\) 个输入点之间的相异度矩阵（可能产生于输入点坐标 \(X\) 之间的成对距离 \(d_{ij}(X)\)）。差异 \(\hat{d}_{ij} = f(\delta_{ij})\) 是相异度的一些变换。MDS 目标（称为原始应力）然后定义为 \(\sum_{i < j} (\hat{d}_{ij} - d_{ij}(Z))^2\)，其中 \(d_{ij}(Z)\) 是嵌入点坐标 \(Z\) 之间的成对距离。

参考文献

“R 中多维尺度变换和展开的更多内容：smacof 版本 2” Mair P, Groenen P., de Leeuw J. Journal of Statistical Software (2022)
“现代多维尺度变换 - 理论与应用” Borg, I.; Groenen P. Springer Series in Statistics (1997)
“非度量多维尺度变换：一种数值方法” Kruskal, J. Psychometrika, 29 (1964)
“通过优化对非度量假设的拟合优度进行多维尺度变换” Kruskal, J. Psychometrika, 29, (1964)

2.2.9. t-分布随机邻域嵌入 (t-SNE)#

t-SNE（TSNE）将数据点的亲和度转换为概率。原始空间中的亲和度由高斯联合概率表示，而嵌入空间中的亲和度由学生 t 分布表示。这使得 t-SNE 对局部结构特别敏感，并且比现有技术具有一些其他优势：

在单个映射上揭示多尺度结构
揭示位于多个不同流形或簇中的数据
减少点在中心聚集的趋势

虽然 Isomap、LLE 及其变体最适合展开单个连续的低维流形，但 t-SNE 将侧重于数据的局部结构，并倾向于提取聚类的局部样本组，如 S 曲线示例中所示。这种根据局部结构对样本进行分组的能力可能有助于可视化地解开同时包含多个流形的数据集，例如数字数据集。

通过梯度下降将原始空间和嵌入空间中联合概率的 Kullback-Leibler (KL) 散度最小化。请注意，KL 散度不是凸的，即使用不同初始化进行多次重启将最终陷入 KL 散度的局部最小值。因此，有时尝试不同的随机种子并选择具有最低 KL 散度的嵌入是有用的。

使用 t-SNE 的缺点大致有：

t-SNE 计算成本高昂，在百万样本数据集上可能需要数小时，而 PCA 只需几秒或几分钟。
Barnes-Hut t-SNE 方法仅限于二维或三维嵌入。
该算法是随机的，使用不同种子多次重启可能会产生不同的嵌入。然而，选择误差最小的嵌入是完全合理的。
全局结构未明确保留。通过使用 PCA 初始化点（使用 init='pca'）可以缓解此问题。

../_images/sphx_glr_plot_lle_digits_013.png

参考文献

“使用 t-SNE 可视化高维数据” van der Maaten, L.J.P.; Hinton, G. Journal of Machine Learning Research (2008)
“t-分布随机邻域嵌入” van der Maaten, L.J.P.
“使用基于树的算法加速 t-SNE” van der Maaten, L.J.P.; Journal of Machine Learning Research 15(Oct):3221-3245, 2014。
“T-分布随机邻域嵌入的自动化优化参数改善了大型数据集的可视化和分析” Belkina, A.C., Ciccolella, C.O., Anno, R., Halpert, R., Spidlen, J., Snyder-Cappione, J.E., Nature Communications 10, 5415 (2019)。

2.2.10. 实际使用提示#

确保所有特征使用相同的尺度。因为流形学习方法基于最近邻搜索，否则算法性能可能会很差。有关缩放异构数据的便捷方法，请参阅 StandardScaler。
每个例程计算的重构误差可用于选择最优输出维度。对于嵌入在 \(D\) 维参数空间中的 \(d\) 维流形，重构误差将随着 n_components 的增加而减小，直到 n_components == d。
请注意，噪声数据可能会“短路”流形，实质上充当流形中原本会很好分离的部分之间的桥梁。对噪声和/或不完整数据进行流形学习是一个活跃的研究领域。
某些输入配置可能导致奇异权重矩阵，例如当数据集中有两个或更多点相同，或数据被分割成不相交的组时。在这种情况下，solver='arpack' 将无法找到零空间。解决此问题的最简单方法是使用 solver='dense'，它可以在奇异矩阵上工作，尽管根据输入点的数量，速度可能会非常慢。或者，可以尝试理解奇异性的来源：如果它是由不相交的集合引起的，增加 n_neighbors 可能会有所帮助。如果它是由数据集中相同的点引起的，删除这些点可能会有所帮助。

另请参阅

全随机树嵌入也可以用于导出特征空间的非线性表示，但它不执行降维。

2.2. 流形学习#

2.2.1. 简介#

2.2.2. Isomap#

2.2.3. 局部线性嵌入#

2.2.4. 修正局部线性嵌入#

2.2.5. 海森特征映射#

2.2.6. 谱嵌入#

2.2.7. 局部切空间对齐#

2.2.8. 多维尺度变换 (MDS)#

2.2.9. t-分布随机邻域嵌入 (t-SNE)#

2.2.10. 实际使用提示#

此页