2.5. 将信号分解为分量(矩阵分解问题)#

2.5.1. 主成分分析 (PCA)#

2.5.1.1. 精确 PCA 和概率解释#

PCA 用于将多元数据集分解为一组连续的正交分量,这些分量解释了最大量的方差。在 scikit-learn 中,PCA转换器 对象的形式实现,它在其 fit 方法中学习 \(n\) 个分量,并且可以用于将新数据投影到这些分量上。

PCA 在应用 SVD 之前对每个特征的输入数据进行中心化,但不进行缩放。可选参数 whiten=True 使得可以将数据投影到奇异空间,同时将每个分量缩放到单位方差。如果下游模型对信号的各向同性有强烈假设,这通常很有用:例如,使用 RBF 核的支持向量机和 K-Means 聚类算法就是这种情况。

下面是鸢尾花数据集的一个示例,该数据集包含 4 个特征,投影到解释大部分方差的 2 个维度上

../_images/sphx_glr_plot_pca_vs_lda_001.png

PCA 对象还提供了 PCA 的概率解释,可以根据其解释的方差量给出数据的似然性。因此,它实现了一个 评分 方法,可用于交叉验证。

../_images/sphx_glr_plot_pca_vs_fa_model_selection_001.png

示例

2.5.1.2. 增量 PCA#

PCA 对象非常有用,但对于大型数据集存在一定的局限性。最大的局限性是 PCA 只支持批处理,这意味着所有要处理的数据都必须能放入主内存。 IncrementalPCA 对象采用不同的处理形式,允许进行部分计算,这些计算在以小批量方式处理数据时几乎与 PCA 的结果完全匹配。IncrementalPCA 可以通过以下方式实现核外主成分分析:

  • 对其 partial_fit 方法应用于从本地硬盘或网络数据库顺序获取的数据块。

  • 使用 numpy.memmap 在内存映射文件上调用其 fit 方法。

IncrementalPCA 仅存储分量和噪声方差的估计值,以便增量更新 explained_variance_ratio_。这就是为什么内存使用量取决于每批样本的数量,而不是数据集中要处理的样本总数。

PCA 类似,IncrementalPCA 在应用 SVD 之前对每个特征的输入数据进行中心化,但不进行缩放。

../_images/sphx_glr_plot_incremental_pca_001.png
../_images/sphx_glr_plot_incremental_pca_002.png

示例

2.5.1.3. 使用随机 SVD 的 PCA#

将数据投影到较低维空间,同时通过丢弃与较低奇异值相关的分量的奇异向量来保留大部分方差,这通常很有趣。

例如,如果我们在人脸识别中使用 64x64 像素的灰度图片,数据的维度是 4096,在这种宽数据上训练 RBF 支持向量机是很慢的。此外,我们知道数据的内在维度远低于 4096,因为所有人脸图片看起来都有点相似。样本位于一个维度低得多的流形上(例如大约 200 维)。PCA 算法可用于线性转换数据,同时降低维度并保留大部分解释方差。

在这种情况下,使用可选参数 svd_solver='randomized'PCA 类非常有用:因为我们将丢弃大多数奇异向量,所以将计算限制在我们实际要保留的奇异向量的近似估计上会更有效。

例如,下图显示了来自 Olivetti 数据集的 16 幅样本肖像(围绕 0.0 中心化)。右侧是重塑为肖像的前 16 个奇异向量。由于我们只需要一个大小为 \(n_{samples} = 400\)\(n_{features} = 64 \times 64 = 4096\) 的数据集的前 16 个奇异向量,因此计算时间不到 1 秒。

orig_img pca_img

如果我们记 \(n_{\max} = \max(n_{\mathrm{samples}}, n_{\mathrm{features}})\)\(n_{\min} = \min(n_{\mathrm{samples}}, n_{\mathrm{features}})\),则随机 PCA 的时间复杂度是 \(O(n_{\max}^2 \cdot n_{\mathrm{components}})\),而不是 PCA 中实现的精确方法的 \(O(n_{\max}^2 \cdot n_{\min})\)

随机 PCA 的内存占用也与 \(2 \cdot n_{\max} \cdot n_{\mathrm{components}}\) 成正比,而不是精确方法的 \(n_{\max} \cdot n_{\min}\)

注意:在 svd_solver='randomized'PCA 中,inverse_transform 的实现并非 transform 的精确逆变换,即使 whiten=False(默认)也是如此。

示例

参考文献

2.5.1.4. 稀疏主成分分析 (SparsePCA 和 MiniBatchSparsePCA)#

SparsePCA 是 PCA 的一个变体,目标是提取能够最好地重建数据的稀疏分量集。

Mini-batch 稀疏 PCA (MiniBatchSparsePCA) 是 SparsePCA 的一个变体,速度更快但准确性较低。通过在给定迭代次数下,对特征集的小块进行迭代来提高速度。

主成分分析 (PCA) 的缺点是,该方法提取的分量具有完全密集的表达式,即当表示为原始变量的线性组合时,它们具有非零系数。这使得解释变得困难。在许多情况下,真正的底层分量可以更自然地想象为稀疏向量;例如,在人脸识别中,分量可能自然地映射到人脸的某些部分。

稀疏主成分产生更简洁、可解释的表示,清晰地强调了哪些原始特征导致了样本之间的差异。

以下示例说明了从 Olivetti 人脸数据集中使用稀疏 PCA 提取的 16 个分量。可以看出正则化项如何引入大量零。此外,数据的自然结构导致非零系数垂直相邻。模型在数学上不强制执行这一点:每个分量都是一个向量 \(h \in \mathbf{R}^{4096}\),除了在以 64x64 像素图像形式进行人性化可视化时,没有垂直相邻的概念。下面显示的分量看起来具有局部性是数据固有结构的结果,这种结构使得这些局部模式能够最小化重建误差。存在考虑邻接和不同类型结构的稀疏诱导范数;有关此类方法的综述,请参见 [Jen09]。有关如何使用稀疏 PCA 的更多详细信息,请参阅下面的“示例”部分。

pca_img spca_img

请注意,稀疏 PCA 问题有许多不同的表述。此处实现的表述基于 [Mrl09]。所解决的优化问题是一个 PCA 问题(字典学习),对分量施加 \(\ell_1\) 惩罚。

\[\begin{split}(U^*, V^*) = \underset{U, V}{\operatorname{arg\,min\,}} & \frac{1}{2} ||X-UV||_{\text{Fro}}^2+\alpha||V||_{1,1} \\ \text{subject to } & ||U_k||_2 \leq 1 \text{ for all } 0 \leq k < n_{components}\end{split}\]

\(||.||_{\text{Fro}}\) 代表 Frobenius 范数,\(||.||_{1,1}\) 代表逐元素矩阵范数,它是矩阵中所有元素的绝对值之和。稀疏诱导 \(||.||_{1,1}\) 矩阵范数还可以在训练样本较少时防止从噪声中学习分量。可以通过超参数 alpha 调整惩罚(以及稀疏性)的程度。小值导致温和正则化的分解,而大值则将许多系数收缩为零。

注意

虽然 MiniBatchSparsePCA 类具有在线算法的精神,但它没有实现 partial_fit 方法,因为该算法是沿着特征方向在线的,而不是沿着样本方向。

示例

参考文献

[Mrl09]

J. Mairal, F. Bach, J. Ponce, G. Sapiro,2009 年的论文《用于稀疏编码的在线字典学习》

[Jen09]

R. Jenatton, G. Obozinski, F. Bach,2009 年的论文《结构化稀疏主成分分析》

2.5.2. 核主成分分析 (kPCA)#

2.5.2.1. 精确核 PCA#

KernelPCA 是 PCA 的扩展,通过使用核函数实现非线性降维(参见成对指标、亲和度与核函数[Scholkopf1997]。它在去噪、压缩和结构化预测(核依赖估计)等领域有许多应用。KernelPCA 同时支持 transforminverse_transform 方法。

../_images/sphx_glr_plot_kernel_pca_002.png

注意

KernelPCA.inverse_transform 依靠核岭回归来学习将样本从 PCA 基映射回原始特征空间的功能 [Bakir2003]。因此,使用 KernelPCA.inverse_transform 获得的重建是一种近似。有关更多详细信息,请参见下面链接的示例。

示例

参考文献

[Scholkopf1997]

Schölkopf, Bernhard, Alexander Smola 和 Klaus-Robert Müller。《核主成分分析》。国际人工神经网络会议。Springer, 柏林, 海德堡, 1997。

[Bakir2003]

Bakır, Gökhan H., Jason Weston 和 Bernhard Schölkopf。《学习寻找原像》。神经信息处理系统进展 16 (2003): 449-456。

2.5.2.2. 核 PCA 求解器的选择#

PCA 中,分量数量受特征数量的限制,而在 KernelPCA 中,分量数量受样本数量的限制。许多真实世界的数据集样本数量庞大!在这些情况下,使用完整的 kPCA 找到 所有 分量会浪费计算时间,因为数据主要由前几个分量描述(例如 n_components<=100)。换句话说,在核 PCA 拟合过程中进行特征分解的中心化 Gram 矩阵的有效秩远小于其大小。在这种情况下,近似特征求解器可以在精度损失极小的情况下提供加速。

特征求解器#

可选参数 eigen_solver='randomized' 可用于在请求的 n_components 数量相对于样本数量较小时,显著减少计算时间。它依赖于随机分解方法,在更短的时间内找到近似解。

随机 KernelPCA 的时间复杂度是 \(O(n_{\mathrm{samples}}^2 \cdot n_{\mathrm{components}})\),而不是使用 eigen_solver='dense' 实现的精确方法的 \(O(n_{\mathrm{samples}}^3)\)

随机 KernelPCA 的内存占用也与 \(2 \cdot n_{\mathrm{samples}} \cdot n_{\mathrm{components}}\) 成正比,而不是精确方法的 \(n_{\mathrm{samples}}^2\)

注意:该技术与 使用随机 SVD 的 PCA 中所用的技术相同。

除了上述两种求解器,eigen_solver='arpack' 也可以作为获得近似分解的替代方法。实际上,当要寻找的分量数量非常小时,此方法才能提供合理的执行时间。当所需分量数量严格小于 10 且样本数量严格大于 200 时,它默认启用。详情请参见 KernelPCA

参考文献

2.5.3. 截断奇异值分解和潜在语义分析#

TruncatedSVD 实现了奇异值分解 (SVD) 的一个变体,它只计算 \(k\) 个最大的奇异值,其中 \(k\) 是用户指定的参数。

TruncatedSVDPCA 非常相似,但不同之处在于矩阵 \(X\) 不需要中心化。当从特征值中减去 \(X\) 的列向(每个特征)均值时,对结果矩阵进行截断 SVD 等价于 PCA。

关于截断 SVD 和潜在语义分析 (LSA)#

当截断 SVD 应用于词-文档矩阵(由 CountVectorizerTfidfVectorizer 返回)时,这种转换被称为潜在语义分析 (LSA),因为它将这些矩阵转换为低维的“语义”空间。特别是,LSA 已知可以对抗同义词和多义词(两者都大致意味着每个词有多种含义)的影响,这些影响导致词-文档矩阵过于稀疏,并在余弦相似度等度量下表现出较差的相似性。

注意

LSA 也被称为潜在语义索引 (LSI),尽管严格来说,LSI 是指其在信息检索中用于持久索引的用途。

在数学上,对训练样本 \(X\) 应用截断 SVD 会产生一个低秩近似 \(X\)

\[X \approx X_k = U_k \Sigma_k V_k^\top\]

此操作后,\(U_k \Sigma_k\) 是转换为具有 \(k\) 个特征的训练集(在 API 中称为 n_components)。

为了也转换测试集 \(X\),我们将其乘以 \(V_k\)

\[X' = X V_k\]

注意

自然语言处理 (NLP) 和信息检索 (IR) 文献中大多数关于 LSA 的处理都交换了矩阵 \(X\) 的轴,使其形状为 (n_features, n_samples)。我们以一种更符合 scikit-learn API 的不同方式来介绍 LSA,但找到的奇异值是相同的。

虽然 TruncatedSVD 转换器适用于任何特征矩阵,但在 LSA/文档处理环境中,建议将其应用于 tf-idf 矩阵而不是原始频率计数。特别是,应该开启亚线性缩放和逆文档频率 (sublinear_tf=True, use_idf=True),以使特征值更接近高斯分布,从而弥补 LSA 对文本数据错误假设的不足。

示例

参考文献

  • Christopher D. Manning, Prabhakar Raghavan 和 Hinrich Schütze (2008),《信息检索导论》,剑桥大学出版社,第 18 章:矩阵分解与潜在语义索引

2.5.4. 字典学习#

2.5.4.1. 使用预计算字典进行稀疏编码#

SparseCoder 对象是一个估计器,可用于将信号转换为来自固定、预计算字典(例如离散小波基)的原子的稀疏线性组合。因此,此对象不实现 fit 方法。这种转换相当于一个稀疏编码问题:找到数据的一种表示,使其作为尽可能少的字典原子的线性组合。字典学习的所有变体都实现了以下转换方法,可通过 transform_method 初始化参数进行控制:

阈值化非常快,但它不能产生准确的重建。在文献中,它们已被证明对分类任务有用。对于图像重建任务,正交匹配追踪产生最准确、无偏的重建。

字典学习对象通过 split_code 参数,提供了在稀疏编码结果中分离正值和负值的可能性。这在字典学习用于提取特征以进行监督学习时很有用,因为它允许学习算法对特定原子的负载荷分配不同的权重,而不是对应的正载荷。

单个样本的分裂码长度为 2 * n_components,并使用以下规则构造:首先,计算长度为 n_components 的常规码。然后,split_code 的前 n_components 个条目用常规码向量的正部分填充。分裂码的后半部分用码向量的负部分填充,但符号为正。因此,split_code 是非负的。

示例

2.5.4.2. 通用字典学习#

字典学习 (DictionaryLearning) 是一个矩阵分解问题,旨在找到一个(通常是过完备的)字典,该字典能够很好地稀疏编码拟合数据。

将数据表示为来自过完备字典原子的稀疏组合被认为是哺乳动物初级视皮层的工作方式。因此,应用于图像块的字典学习已被证明在图像处理任务(如图像补全、修复和去噪)以及监督识别任务中取得了良好效果。

字典学习是一个优化问题,通过交替更新稀疏码(作为多个 Lasso 问题的解,同时字典固定)来解决,然后更新字典以最佳拟合稀疏码。

\[\begin{split}(U^*, V^*) = \underset{U, V}{\operatorname{arg\,min\,}} & \frac{1}{2} ||X-UV||_{\text{Fro}}^2+\alpha||U||_{1,1} \\ \text{subject to } & ||V_k||_2 \leq 1 \text{ for all } 0 \leq k < n_{\mathrm{atoms}}\end{split}\]

pca_img2 dict_img2

\(||.||_{\text{Fro}}\) 代表 Frobenius 范数,\(||.||_{1,1}\) 代表逐元素矩阵范数,它是矩阵中所有元素的绝对值之和。在使用这样的程序拟合字典后,转换操作仅仅是一个稀疏编码步骤,它与所有字典学习对象共享相同的实现(参见使用预计算字典进行稀疏编码)。

还可以限制字典和/或编码为正值,以匹配数据中可能存在的约束。下面是应用了不同正性约束的人脸。红色表示负值,蓝色表示正值,白色表示零。

dict_img_pos1 dict_img_pos2

dict_img_pos3 dict_img_pos4

下图显示了从浣熊面部图像的一部分提取的 4x4 像素图像块学习到的字典的模样。

../_images/sphx_glr_plot_image_denoising_001.png

示例

参考文献

2.5.4.3. 小批量字典学习#

MiniBatchDictionaryLearning 实现了字典学习算法的一个更快但精度较低的版本,更适用于大型数据集。

默认情况下,MiniBatchDictionaryLearning 将数据划分为小批量,并通过在指定迭代次数内循环遍历小批量来以在线方式进行优化。然而,目前它没有实现停止条件。

该估计器还实现了 partial_fit 方法,它通过对一个小批量数据进行一次迭代来更新字典。当数据无法从一开始就完全获取,或者数据无法完全加载到内存中时,这可用于在线学习。

../_images/sphx_glr_plot_dict_face_patches_001.png

2.5.5. 因子分析#

在无监督学习中,我们只有一个数据集 \(X = \{x_1, x_2, \dots, x_n \}\)。如何用数学描述这个数据集?一个非常简单的 \(X\)连续潜在变量 模型是

\[x_i = W h_i + \mu + \epsilon\]

向量 \(h_i\) 被称为“潜在”是因为它未被观测到。\(\epsilon\) 被视为一个噪声项,服从均值为 0、协方差为 \(\Psi\) 的高斯分布(即 \(\epsilon \sim \mathcal{N}(0, \Psi)\)),\(\mu\) 是任意偏移向量。这样的模型被称为“生成式”模型,因为它描述了 \(x_i\) 如何从 \(h_i\) 生成。如果我们将所有 \(x_i\) 作为列组成矩阵 \(\mathbf{X}\),将所有 \(h_i\) 作为列组成矩阵 \(\mathbf{H}\),那么我们可以写出(适当定义 \(\mathbf{M}\)\(\mathbf{E}\)

\[\mathbf{X} = W \mathbf{H} + \mathbf{M} + \mathbf{E}\]

换句话说,我们 分解了 矩阵 \(\mathbf{X}\)

如果给定 \(h_i\),则上述方程自动蕴含以下概率解释:

\[p(x_i|h_i) = \mathcal{N}(Wh_i + \mu, \Psi)\]

对于一个完整的概率模型,我们还需要潜在变量 \(h\) 的先验分布。最直接的假设(基于高斯分布的良好性质)是 \(h \sim \mathcal{N}(0, \mathbf{I})\)。这使得 \(x\) 的边际分布为高斯分布:

\[p(x) = \mathcal{N}(\mu, WW^T + \Psi)\]

现在,如果没有进一步的假设,拥有潜在变量 \(h\) 的想法将是多余的——\(x\) 可以完全用均值和协方差建模。我们需要对这两个参数之一施加一些更具体的结构。一个简单的附加假设涉及误差协方差 \(\Psi\) 的结构:

  • \(\Psi = \sigma^2 \mathbf{I}\):这个假设导致了 PCA 的概率模型。

  • \(\Psi = \mathrm{diag}(\psi_1, \psi_2, \dots, \psi_n)\):这个模型被称为 FactorAnalysis,一个经典的统计模型。矩阵 W 有时被称为“因子载荷矩阵”。

这两个模型本质上都估计了一个具有低秩协方差矩阵的高斯分布。由于这两个模型都是概率性的,它们可以集成到更复杂的模型中,例如因子分析混合模型。如果对潜在变量假设非高斯先验,则会得到非常不同的模型(例如 FastICA)。

因子分析 可以 产生与 PCA 类似的分量(其载荷矩阵的列)。然而,不能对这些分量作出任何一般性陈述(例如它们是否正交)。

pca_img3 fa_img3

因子分析相对于 PCA 的主要优势在于,它能够独立地建模输入空间中每个方向的方差(异方差噪声)。

../_images/sphx_glr_plot_faces_decomposition_009.png

这使得在存在异方差噪声的情况下,比概率 PCA 具有更好的模型选择能力。

../_images/sphx_glr_plot_pca_vs_fa_model_selection_002.png

因子分析之后通常会对因子进行旋转(通过参数 rotation),通常是为了提高可解释性。例如,Varimax 旋转最大化平方载荷的方差之和,即它倾向于产生更稀疏的因子,每个因子仅受少数特征的影响(“简单结构”)。例如,参见下面的第一个示例。

示例

2.5.6. 独立成分分析 (ICA)#

独立成分分析将多元信号分解为最大程度独立的附加子分量。它在 scikit-learn 中使用 Fast ICA 算法实现。通常,ICA 不用于降维,而是用于分离叠加信号。由于 ICA 模型不包含噪声项,为了使模型正确,必须应用白化。这可以通过内部使用 whiten 参数或手动使用 PCA 的变体之一来完成。

它通常用于分离混合信号(一个称为 盲源分离 的问题),如下例所示:

../_images/sphx_glr_plot_ica_blind_source_separation_001.png

ICA 也可以作为另一种非线性分解方法,用于寻找具有一定稀疏性的分量。

pca_img4 ica_img4

示例

2.5.7. 非负矩阵分解 (NMF 或 NNMF)#

2.5.7.1. 基于 Frobenius 范数的 NMF#

NMF [1] 是一种替代的分解方法,它假设数据和分量都是非负的。NMF 可以在数据矩阵不包含负值的情况下替代 PCA 或其变体。它通过优化 \(X\) 与矩阵乘积 \(WH\) 之间的距离 \(d\),将样本 \(X\) 分解为两个非负元素矩阵 \(W\)\(H\)。最广泛使用的距离函数是平方 Frobenius 范数,它是欧几里得范数对矩阵的明显扩展:

\[d_{\mathrm{Fro}}(X, Y) = \frac{1}{2} ||X - Y||_{\mathrm{Fro}}^2 = \frac{1}{2} \sum_{i,j} (X_{ij} - {Y}_{ij})^2\]

PCA 不同,向量的表示是通过叠加分量以加法方式获得的,无需减法。这种加法模型对于表示图像和文本非常有效。

在 [Hoyer, 2004] [2] 中观察到,当经过仔细约束时,NMF 可以产生数据集的基于部分的表示,从而得到可解释的模型。以下示例显示了 NMF 从 Olivetti 人脸数据集图像中找到的 16 个稀疏分量,并与 PCA 特征脸进行了比较。

pca_img5 nmf_img5

init 属性决定了所应用的初始化方法,这对方法的性能有很大影响。NMF 实现了非负双奇异值分解方法。NNDSVD [4] 基于两个 SVD 过程,一个近似数据矩阵,另一个利用单位秩矩阵的代数性质近似结果部分 SVD 因子的正值部分。基本 NNDSVD 算法更适合稀疏分解。其变体 NNDSVDa(其中所有零都设置为数据所有元素的平均值)和 NNDSVDar(其中零设置为小于数据平均值除以 100 的随机扰动)在密集情况下推荐使用。

请注意,乘性更新('mu')求解器无法更新初始化中存在的零值,因此当与引入大量零的基本 NNDSVD 算法一起使用时,它会导致较差的结果;在这种情况下,应优先选择 NNDSVDa 或 NNDSVDar。

NMF 也可以通过设置 init="random",使用正确缩放的随机非负矩阵进行初始化。还可以将整数种子或 RandomState 传递给 random_state 来控制可重现性。

NMF 中,可以在损失函数中添加 L1 和 L2 先验项以正则化模型。L2 先验使用 Frobenius 范数,而 L1 先验使用逐元素的 L1 范数。与 ElasticNet 类似,我们通过 l1_ratio (\(\rho\)) 参数控制 L1 和 L2 的组合,通过 alpha_Walpha_H (\(\alpha_W\)\(\alpha_H\)) 参数控制正则化强度。这些先验项针对 H 按样本数量 (\(n\_samples\)) 进行缩放,针对 W 按特征数量 (\(n\_features\)) 进行缩放,以保持它们相互之间以及与数据拟合项之间的影响尽可能独立于训练集的大小。那么先验项为:

\[(\alpha_W \rho ||W||_1 + \frac{\alpha_W(1-\rho)}{2} ||W||_{\mathrm{Fro}} ^ 2) * n\_features + (\alpha_H \rho ||H||_1 + \frac{\alpha_H(1-\rho)}{2} ||H||_{\mathrm{Fro}} ^ 2) * n\_samples\]

正则化目标函数为:

\[d_{\mathrm{Fro}}(X, WH) + (\alpha_W \rho ||W||_1 + \frac{\alpha_W(1-\rho)}{2} ||W||_{\mathrm{Fro}} ^ 2) * n\_features + (\alpha_H \rho ||H||_1 + \frac{\alpha_H(1-\rho)}{2} ||H||_{\mathrm{Fro}} ^ 2) * n\_samples\]

2.5.7.2. 基于 beta-散度的 NMF#

如前所述,最广泛使用的距离函数是平方 Frobenius 范数,它是欧几里得范数对矩阵的明显扩展:

\[d_{\mathrm{Fro}}(X, Y) = \frac{1}{2} ||X - Y||_{Fro}^2 = \frac{1}{2} \sum_{i,j} (X_{ij} - {Y}_{ij})^2\]

NMF 中还可以使用其他距离函数,例如(广义)Kullback-Leibler (KL) 散度,也称为 I-散度:

\[d_{KL}(X, Y) = \sum_{i,j} (X_{ij} \log(\frac{X_{ij}}{Y_{ij}}) - X_{ij} + Y_{ij})\]

或者,Itakura-Saito (IS) 散度:

\[d_{IS}(X, Y) = \sum_{i,j} (\frac{X_{ij}}{Y_{ij}} - \log(\frac{X_{ij}}{Y_{ij}}) - 1)\]

这三个距离分别是 beta-散度家族的特例,对应 \(\beta = 2, 1, 0\) [6]。beta-散度定义为:

\[d_{\beta}(X, Y) = \sum_{i,j} \frac{1}{\beta(\beta - 1)}(X_{ij}^\beta + (\beta-1)Y_{ij}^\beta - \beta X_{ij} Y_{ij}^{\beta - 1})\]
../_images/beta_divergence.png

请注意,如果 \(\beta \in (0; 1)\),此定义无效,但它可以分别连续扩展到 \(d_{KL}\)\(d_{IS}\) 的定义。

NMF 实现的求解器#

NMF 实现了两种求解器:使用坐标下降('cd')[5] 和乘性更新('mu')[6]。'mu' 求解器可以优化所有 beta-散度,当然包括 Frobenius 范数(\(\beta=2\))、(广义)Kullback-Leibler 散度(\(\beta=1\))和 Itakura-Saito 散度(\(\beta=0\))。请注意,对于 \(\beta \in (1; 2)\),'mu' 求解器明显快于其他 \(\beta\) 值。另请注意,当 \(\beta\) 为负(或 0,即 'itakura-saito')时,输入矩阵不能包含零值。

‘cd’ 求解器只能优化 Frobenius 范数。由于 NMF 的底层非凸性,即使优化相同的距离函数,不同的求解器也可能收敛到不同的局部最小值。

NMF 最好与 fit_transform 方法一起使用,该方法返回矩阵 W。矩阵 H 存储在拟合模型的 components_ 属性中;transform 方法将基于这些存储的分量分解新的矩阵 X_new。

>>> import numpy as np
>>> X = np.array([[1, 1], [2, 1], [3, 1.2], [4, 1], [5, 0.8], [6, 1]])
>>> from sklearn.decomposition import NMF
>>> model = NMF(n_components=2, init='random', random_state=0)
>>> W = model.fit_transform(X)
>>> H = model.components_
>>> X_new = np.array([[1, 0], [1, 6.1], [1, 0], [1, 4], [3.2, 1], [0, 4]])
>>> W_new = model.transform(X_new)

示例

2.5.7.3. 小批量非负矩阵分解#

MiniBatchNMF [7] 实现了一个更快但精度较低的非负矩阵分解(即 NMF)版本,更适合大型数据集。

默认情况下,MiniBatchNMF 将数据划分为小批量,并通过在指定迭代次数内循环遍历小批量来以在线方式优化 NMF 模型。batch_size 参数控制批处理的大小。

为了加速小批量算法,还可以对过去的批次进行缩放,使其重要性低于新的批次。这是通过引入一个由 forget_factor 参数控制的所谓遗忘因子来实现的。

该估计器还实现了 partial_fit 方法,它通过对一个小批量数据进行一次迭代来更新 H。当数据无法从一开始就完全获取,或者数据无法完全加载到内存中时,这可用于在线学习。

参考文献

2.5.8. 潜在狄利克雷分配 (LDA)#

潜在狄利克雷分配是一种用于离散数据集(如文本语料库)集合的生成概率模型。它也是一种主题模型,用于从文档集合中发现抽象主题。

LDA 的图形模型是一个三层生成模型:

../_images/lda_model_graph.png

请注意上面图形模型中表示法,这些表示法可在 Hoffman 等人(2013)的论文中找到。

  • 语料库是 \(D\) 篇文档的集合。

  • 一篇文档是 \(N\) 个词的序列。

  • 语料库中有 \(K\) 个主题。

  • 方框代表重复采样。

在图模型中,每个节点都是一个随机变量,并在生成过程中扮演着角色。阴影节点表示观测变量,无阴影节点表示隐藏(潜在)变量。在这种情况下,语料库中的词是我们唯一观测到的数据。潜在变量决定了语料库中主题的随机混合以及文档中词的分布。LDA 的目标是利用观测到的词来推断隐藏的主题结构。

文本语料库建模细节#

在建模文本语料库时,该模型对包含 \(D\) 篇文档和 \(K\) 个主题的语料库假设以下生成过程,其中 \(K\) 对应于 API 中的 n_components

  1. 对于每个主题 \(k \in K\),从中抽取 \(\beta_k \sim \mathrm{Dirichlet}(\eta)\)。这提供了词的分布,即词出现在主题 \(k\) 中的概率。\(\eta\) 对应于 topic_word_prior

  2. 对于每篇文档 \(d \in D\),从中抽取主题比例 \(\theta_d \sim \mathrm{Dirichlet}(\alpha)\)\(\alpha\) 对应于 doc_topic_prior

  3. 对于文档 \(d\) 中的每个词 \(i\)

    1. 抽取主题分配 \(z_{di} \sim \mathrm{Multinomial} (\theta_d)\)

    2. 抽取观测词 \(w_{ij} \sim \mathrm{Multinomial} (\beta_{z_{di}})\)

对于参数估计,后验分布为

\[p(z, \theta, \beta |w, \alpha, \eta) = \frac{p(z, \theta, \beta|\alpha, \eta)}{p(w|\alpha, \eta)}\]

由于后验分布难以处理,变分贝叶斯方法使用一个更简单的分布 \(q(z,\theta,\beta | \lambda, \phi, \gamma)\) 来近似它,并且优化这些变分参数 \(\lambda\)\(\phi\)\(\gamma\) 以最大化证据下界 (ELBO)

\[\log\: P(w | \alpha, \eta) \geq L(w,\phi,\gamma,\lambda) \overset{\triangle}{=} E_{q}[\log\:p(w,z,\theta,\beta|\alpha,\eta)] - E_{q}[\log\:q(z, \theta, \beta)]\]

最大化 ELBO 等价于最小化 \(q(z,\theta,\beta)\) 与真实后验 \(p(z, \theta, \beta |w, \alpha, \eta)\) 之间的 Kullback-Leibler (KL) 散度。

LatentDirichletAllocation 实现了在线变分贝叶斯算法,并支持在线和批量更新方法。批量方法在每次完整遍历数据后更新变分变量,而在线方法则从 mini-batch 数据点更新变分变量。

注意

尽管在线方法保证收敛到局部最优解,但最优解的质量和收敛速度可能取决于 mini-batch 大小以及与学习率设置相关的属性。

LatentDirichletAllocation 应用于“文档-词”矩阵时,该矩阵将被分解为“主题-词”矩阵和“文档-主题”矩阵。“主题-词”矩阵存储为模型中的 components_,而“文档-主题”矩阵可以通过 transform 方法计算得出。

LatentDirichletAllocation 还实现了 partial_fit 方法。当数据可以顺序获取时使用此方法。

示例

参考文献

另请参见 降维,了解使用邻域成分分析进行降维。