2.5. 将信号分解为成分(矩阵分解问题)#

2.5.1. 主成分分析 (PCA)#

2.5.1.1. 精确 PCA 和概率解释#

PCA 用于将多元数据集分解为一组连续的正交成分,这些成分解释了最大量的方差。在 scikit-learn 中,PCA 被实现为一个转换器对象,它在 fit 方法中学习 \(n\) 个成分,并且可以用于新数据将其投影到这些成分上。

PCA 在应用 SVD 之前对每个特征的输入数据进行中心化,但不进行缩放。可选参数 whiten=True 使得可以将数据投影到奇异空间,同时将每个成分缩放为单位方差。如果下游模型对信号的各向同性做出强烈的假设,这通常很有用:例如,支持向量机使用 RBF 核和 K 均值聚类算法就是这种情况。

以下是以鸢尾花数据集为例,该数据集包含 4 个特征,投影到解释最多方差的 2 个维度上

../_images/sphx_glr_plot_pca_vs_lda_001.png

PCA 对象还提供了 PCA 的概率解释,可以根据它解释的方差量给出数据的可能性。因此,它实现了一个 评分 方法,该方法可用于交叉验证

../_images/sphx_glr_plot_pca_vs_fa_model_selection_001.png

示例

2.5.1.2. 增量 PCA#

PCA 对象非常有用,但对于大型数据集而言,它存在一些局限性。最大的局限性是 PCA 仅支持批处理,这意味着要处理的所有数据都必须适合主内存。 IncrementalPCA 对象使用不同的处理形式,并允许进行部分计算,这些计算几乎完全匹配 PCA 的结果,同时以小批量方式处理数据。 IncrementalPCA 使得可以实现核心外主成分分析,方法是通过

  • 使用其 partial_fit 方法对从本地硬盘或网络数据库中顺序获取的数据块进行处理。

  • 使用 numpy.memmap 在内存映射文件中调用其 fit 方法。

IncrementalPCA 仅存储组件和噪声方差的估计值,以便增量更新 explained_variance_ratio_。这就是为什么内存使用取决于每个批次的样本数量,而不是数据集要处理的样本数量。

PCA 一样,IncrementalPCA 在应用 SVD 之前,会对每个特征的输入数据进行中心化,但不会进行缩放。

../_images/sphx_glr_plot_incremental_pca_001.png
../_images/sphx_glr_plot_incremental_pca_002.png

示例

2.5.1.3. 使用随机 SVD 的 PCA#

通过丢弃与较低奇异值相关的组件的奇异向量,将数据投影到保留大部分方差的低维空间通常很有趣。

例如,如果我们使用 64x64 像素灰度图像进行人脸识别,则数据的维数为 4096,在如此宽的数据上训练 RBF 支持向量机速度很慢。此外,我们知道数据的内在维数远低于 4096,因为所有的人脸图像都有些相似。样本位于维数低得多的流形上(例如,大约 200)。PCA 算法可用于线性变换数据,同时降低维数并同时保留大部分解释方差。

使用可选参数 svd_solver='randomized' 的类 PCA 在这种情况下非常有用:由于我们将丢弃大部分奇异向量,因此将计算限制在我们将保留的奇异向量的近似估计上以实际执行变换效率更高。

例如,以下显示了来自 Olivetti 数据集的 16 个样本肖像(以 0.0 为中心)。右侧是作为肖像重塑的前 16 个奇异向量。由于我们只需要大小为 \(n_{samples} = 400\)\(n_{features} = 64 \times 64 = 4096\) 的数据集的前 16 个奇异向量,因此计算时间不到 1 秒。

orig_img pca_img

如果我们记 \(n_{\max} = \max(n_{\mathrm{samples}}, n_{\mathrm{features}})\)\(n_{\min} = \min(n_{\mathrm{samples}}, n_{\mathrm{features}})\),则随机 PCA 的时间复杂度为 \(O(n_{\max}^2 \cdot n_{\mathrm{components}})\),而不是 PCA 中实现的精确方法的 \(O(n_{\max}^2 \cdot n_{\min})\)

随机 PCA 的内存占用量也与 \(2 \cdot n_{\max} \cdot n_{\mathrm{components}}\) 成正比,而不是精确方法的 \(n_{\max} \cdot n_{\min}\)

注意:PCAinverse_transform 的实现,即使在 whiten=False(默认)的情况下,也不完全是 transform 的逆变换。

示例

参考文献

2.5.1.4. 稀疏主成分分析 (SparsePCA 和 MiniBatchSparsePCA)#

SparsePCA 是 PCA 的一种变体,其目标是提取最能重建数据的稀疏组件集。

小批量稀疏 PCA (MiniBatchSparsePCA) 是 SparsePCA 的一种变体,它速度更快,但准确性较低。通过在给定迭代次数内遍历特征集的小块来实现更高的速度。

主成分分析 (PCA) 的缺点是,该方法提取的组件仅具有密集表达式,即它们在表示为原始变量的线性组合时具有非零系数。这会使解释变得困难。在许多情况下,真实的潜在组件可以更自然地想象为稀疏向量;例如,在人脸识别中,组件可能自然地映射到人脸的各个部分。

稀疏主成分产生更简洁、更易解释的表示,清楚地强调了哪些原始特征有助于样本之间的差异。

以下示例说明了使用稀疏 PCA 从 Olivetti 人脸数据集提取的 16 个组件。可以看出正则化项如何导致许多零。此外,数据的自然结构导致非零系数垂直相邻。模型不会在数学上强制执行此操作:每个组件都是一个向量 \(h \in \mathbf{R}^{4096}\),除了在作为 64x64 像素图像的人性化可视化期间之外,没有垂直相邻的概念。下面显示的组件看起来很局部的事实是数据固有结构的影响,这使得这种局部模式最小化重建误差。存在考虑相邻和不同类型结构的稀疏诱导范数;有关此类方法的回顾,请参见 [Jen09]。有关如何使用稀疏 PCA 的更多详细信息,请参见下面的示例部分。

pca_img spca_img

请注意,稀疏 PCA 问题有许多不同的公式。这里实现的公式基于 [Mrl09]。解决的优化问题是具有组件上的 \(\ell_1\) 惩罚的 PCA 问题(字典学习)

\[\begin{split}(U^*, V^*) = \underset{U, V}{\operatorname{arg\,min\,}} & \frac{1}{2} ||X-UV||_{\text{Fro}}^2+\alpha||V||_{1,1} \\ \text{subject to } & ||U_k||_2 <= 1 \text{ for all } 0 \leq k < n_{components}\end{split}\]

\(||.||_{\text{Fro}}\) 代表弗罗贝尼乌斯范数,\(||.||_{1,1}\) 代表逐项矩阵范数,它是矩阵中所有条目绝对值的总和。稀疏诱导的 \(||.||_{1,1}\) 矩阵范数还防止在训练样本很少的情况下从噪声中学习组件。惩罚程度(因此是稀疏性)可以通过超参数 alpha 进行调整。较小的值会导致轻微正则化的分解,而较大的值会将许多系数缩减为零。

注意

虽然在在线算法的精神范围内,类 MiniBatchSparsePCA 没有实现 partial_fit,因为该算法在线沿着特征方向,而不是样本方向。

示例

参考文献

[Mrl09]

J. Mairal、F. Bach、J. Ponce、G. Sapiro 2009 年的 “Online Dictionary Learning for Sparse Coding”

[Jen09]

R. Jenatton、G. Obozinski、F. Bach 2009 年的 “Structured Sparse Principal Component Analysis”

2.5.2. 核主成分分析 (kPCA)#

2.5.2.1. 精确核 PCA#

KernelPCA 是 PCA 的扩展,它通过使用内核(参见 成对度量、亲和力和内核[Scholkopf1997] 实现非线性降维。它有许多应用,包括降噪、压缩和结构化预测(内核依赖估计)。KernelPCA 支持 transforminverse_transform

../_images/sphx_glr_plot_kernel_pca_002.png

注意

KernelPCA.inverse_transform 依赖于内核岭来学习将样本从 PCA 基映射到原始特征空间的函数 [Bakir2003]。因此,使用 KernelPCA.inverse_transform 获得的重建是一个近似值。有关更多详细信息,请参见下面链接的示例。

示例

参考文献

[Scholkopf1997]

Schölkopf,Bernhard,Alexander Smola 和 Klaus-Robert Müller。 “核主成分分析。” 人工神经网络国际会议。施普林格,柏林,海德堡,1997 年。

[Bakir2003]

Bakır,Gökhan H.,Jason Weston 和 Bernhard Schölkopf。 “学习寻找原像。” 神经信息处理系统进展 16 (2003):449-456。

2.5.2.2. 选择 Kernel PCA 的求解器#

虽然在 PCA 中,组件数量受特征数量的限制,但在 KernelPCA 中,组件数量受样本数量的限制。许多现实世界的数据集具有大量的样本!在这些情况下,使用完整的 kPCA 查找所有组件是一种浪费计算时间的做法,因为数据主要由前几个组件描述(例如 n_components<=100)。换句话说,在 Kernel PCA 拟合过程中进行特征分解的中心化 Gram 矩阵的有效秩远小于其大小。在这种情况下,近似特征值求解器可以以非常低的精度损失提供加速。

特征值求解器#

可选参数 eigen_solver='randomized' 可用于显著减少计算时间,前提是请求的 n_components 数量与样本数量相比很小。它依赖于随机分解方法,可以在更短的时间内找到近似解。

随机化 KernelPCA 的时间复杂度为 \(O(n_{\mathrm{samples}}^2 \cdot n_{\mathrm{components}})\),而不是使用 eigen_solver='dense' 实现的精确方法的 \(O(n_{\mathrm{samples}}^3)\)

随机化 KernelPCA 的内存占用量也与 \(2 \cdot n_{\mathrm{samples}} \cdot n_{\mathrm{components}}\) 成正比,而不是精确方法的 \(n_{\mathrm{samples}}^2\)

注意:此技术与 使用随机化 SVD 的 PCA 中的技术相同。

除了上述两个求解器之外,还可以使用 eigen_solver='arpack' 作为获得近似分解的另一种方法。在实践中,此方法仅在要查找的组件数量极少时才能提供合理的执行时间。当所需的组件数量小于 10(严格)且样本数量大于 200(严格)时,它默认启用。有关详细信息,请参阅 KernelPCA

参考文献

2.5.3. 截断奇异值分解和潜在语义分析#

TruncatedSVD 实现了一种奇异值分解 (SVD) 变体,它只计算前 \(k\) 个最大奇异值,其中 \(k\) 是用户指定的参数。

TruncatedSVDPCA 非常相似,但不同之处在于矩阵 \(X\) 不需要进行中心化。当从特征值中减去 \(X\) 的列方向(按特征)均值时,对结果矩阵进行截断 SVD 等效于 PCA。

关于截断 SVD 和潜在语义分析 (LSA)#

当截断 SVD 应用于词项-文档矩阵(如 CountVectorizerTfidfVectorizer 返回)时,这种变换被称为 潜在语义分析 (LSA),因为它将此类矩阵转换为低维度的“语义”空间。特别是,LSA 能够解决同义词和多义词的影响(两者都大致意味着每个词都有多个含义),这些影响会导致词项-文档矩阵过于稀疏,并且在余弦相似度等度量下表现出较差的相似性。

注意

LSA 也被称为潜在语义索引、LSI,尽管严格来说,它指的是在信息检索目的的持久索引中的使用。

在数学上,应用于训练样本 \(X\) 的截断 SVD 会产生一个低秩近似 \(X\)

\[X \approx X_k = U_k \Sigma_k V_k^\top\]

此操作后,\(U_k \Sigma_k\) 是具有 \(k\) 个特征的变换后的训练集(在 API 中称为 n_components)。

为了也变换测试集 \(X\),我们将其与 \(V_k\) 相乘

\[X' = X V_k\]

注意

自然语言处理 (NLP) 和信息检索 (IR) 文献中对 LSA 的大多数处理都会交换矩阵 \(X\) 的轴,使其形状为 (n_features, n_samples)。我们以不同的方式呈现 LSA,使其更符合 scikit-learn API,但找到的奇异值是相同的。

虽然 TruncatedSVD 变换器适用于任何特征矩阵,但在 LSA/文档处理设置中,建议在 tf-idf 矩阵上使用它,而不是使用原始频率计数。特别是,应打开次线性缩放和逆文档频率 (sublinear_tf=True, use_idf=True),以使特征值更接近高斯分布,从而弥补 LSA 对文本数据的错误假设。

示例

参考文献

  • Christopher D. Manning、Prabhakar Raghavan 和 Hinrich Schütze (2008),信息检索导论,剑桥大学出版社,第 18 章:矩阵分解和潜在语义索引

2.5.4. 字典学习#

2.5.4.1. 使用预先计算的字典进行稀疏编码#

SparseCoder 对象是一个估计器,可用于将信号转换为来自固定预先计算字典(例如离散小波基)的原子的稀疏线性组合。因此,此对象不实现 fit 方法。变换相当于一个稀疏编码问题:找到数据的表示形式,使其成为尽可能少的字典原子的线性组合。所有字典学习变体都实现以下变换方法,这些方法可以通过 transform_method 初始化参数进行控制

阈值化速度非常快,但它不会产生准确的重建。它们在文献中被证明对分类任务有用。对于图像重建任务,正交匹配追踪会产生最准确、无偏差的重建。

字典学习对象通过 split_code 参数提供了将稀疏编码结果中的正值和负值分离的可能性。当字典学习用于提取将用于监督学习的特征时,这很有用,因为它允许学习算法对特定原子的负荷进行不同的加权,从相应的正荷开始。

单个样本的分割代码长度为 2 * n_components,并使用以下规则构建:首先,计算长度为 n_components 的常规代码。然后,将 split_code 的前 n_components 个条目填充为常规代码向量的正部分。分割代码的后半部分填充为代码向量的负部分,只是带有一个正号。因此,split_code 是非负的。

示例

2.5.4.2. 通用字典学习#

字典学习 (DictionaryLearning) 是一个矩阵分解问题,相当于找到一个(通常是过完备的)字典,该字典在稀疏编码拟合数据方面表现良好。

将数据表示为来自过完备字典的原子的稀疏组合被认为是哺乳动物初级视觉皮层的工作方式。因此,应用于图像块的字典学习已被证明在图像处理任务(如图像完成、修复和去噪)以及监督识别任务中取得了良好的效果。

字典学习是一个优化问题,通过交替更新稀疏代码来解决,作为多个 Lasso 问题的解决方案,考虑到字典是固定的,然后更新字典以最适合稀疏代码。

\[\begin{split}(U^*, V^*) = \underset{U, V}{\operatorname{arg\,min\,}} & \frac{1}{2} ||X-UV||_{\text{Fro}}^2+\alpha||U||_{1,1} \\ \text{subject to } & ||V_k||_2 <= 1 \text{ for all } 0 \leq k < n_{\mathrm{atoms}}\end{split}\]

pca_img2 dict_img2

\(||.||_{\text{Fro}}\) 代表 Frobenius 范数,\(||.||_{1,1}\) 代表逐元素矩阵范数,它是矩阵中所有元素的绝对值的总和。在使用这种程序来拟合字典之后,变换只是一个稀疏编码步骤,它与所有字典学习对象共享相同的实现(参见 使用预先计算的字典进行稀疏编码)。

还可以约束字典和/或代码为正,以匹配数据中可能存在的约束。以下是应用了不同正性约束的面部。红色表示负值,蓝色表示正值,白色表示零。

dict_img_pos1 dict_img_pos2

dict_img_pos3 dict_img_pos4

下图显示了从从浣熊脸图像的一部分中提取的 4x4 像素图像块学习的字典的样子。

../_images/sphx_glr_plot_image_denoising_001.png

示例

参考文献

2.5.4.3. 小批量字典学习#

MiniBatchDictionaryLearning 实现了一个更快但不太准确的字典学习算法版本,该版本更适合大型数据集。

默认情况下,MiniBatchDictionaryLearning 将数据分成小批量,并通过在指定迭代次数内循环遍历小批量来以在线方式进行优化。但是,目前它没有实现停止条件。

估计器还实现了 partial_fit,它通过仅迭代一次小批量来更新字典。这可用于在线学习,当数据从一开始就不可用时,或者当数据不适合内存时。

../_images/sphx_glr_plot_dict_face_patches_001.png

2.5.5. 因子分析#

在无监督学习中,我们只有数据集 \(X = \{x_1, x_2, \dots, x_n \}\)。如何用数学方法描述这个数据集?\(X\) 的一个非常简单的 连续 潜在 变量 模型是

\[x_i = W h_i + \mu + \epsilon\]

向量 \(h_i\) 被称为“潜在”变量,因为它没有被观察到。\(\epsilon\) 被认为是一个噪声项,其分布服从均值为 0、协方差为 \(\Psi\) 的高斯分布(即 \(\epsilon \sim \mathcal{N}(0, \Psi)\)),\(\mu\) 是某个任意偏移向量。这种模型被称为“生成式”模型,因为它描述了 \(x_i\) 如何从 \(h_i\) 生成。如果我们将所有 \(x_i\) 作为列来形成矩阵 \(\mathbf{X}\),并将所有 \(h_i\) 作为列来形成矩阵 \(\mathbf{H}\),那么我们可以写成(以适当定义的 \(\mathbf{M}\)\(\mathbf{E}\)):

\[\mathbf{X} = W \mathbf{H} + \mathbf{M} + \mathbf{E}\]

换句话说,我们对矩阵 \(\mathbf{X}\) 进行了分解

如果给定 \(h_i\),上述等式自动意味着以下概率解释

\[p(x_i|h_i) = \mathcal{N}(Wh_i + \mu, \Psi)\]

对于完整的概率模型,我们还需要潜在变量 \(h\) 的先验分布。最直接的假设(基于高斯分布的良好性质)是 \(h \sim \mathcal{N}(0, \mathbf{I})\)。这使得 \(x\) 的边际分布为高斯分布

\[p(x) = \mathcal{N}(\mu, WW^T + \Psi)\]

现在,没有任何进一步的假设,拥有潜在变量 \(h\) 的想法将是多余的——\(x\) 可以用均值和协方差完全建模。我们需要对这两个参数中的一个施加一些更具体的结构。一个简单的附加假设涉及误差协方差 \(\Psi\) 的结构

  • \(\Psi = \sigma^2 \mathbf{I}\):这个假设导致了 PCA 的概率模型。

  • \(\Psi = \mathrm{diag}(\psi_1, \psi_2, \dots, \psi_n)\):这个模型被称为 FactorAnalysis,这是一个经典的统计模型。矩阵 W 有时被称为“因子载荷矩阵”。

这两个模型本质上都估计了一个具有低秩协方差矩阵的高斯分布。因为这两个模型都是概率模型,所以它们可以集成到更复杂的模型中,例如因子分析混合模型。如果对潜在变量假设非高斯先验,则会得到非常不同的模型(例如,FastICA)。

因子分析可以生成与 PCA 相似的成分(其载荷矩阵的列)。但是,人们不能对这些成分做出任何一般性的陈述(例如,它们是否正交)

pca_img3 fa_img3

因子分析相对于 PCA 的主要优势在于它可以独立地对输入空间的每个方向上的方差进行建模(异方差噪声)

../_images/sphx_glr_plot_faces_decomposition_009.png

这允许在存在异方差噪声的情况下比概率 PCA 进行更好的模型选择

../_images/sphx_glr_plot_pca_vs_fa_model_selection_002.png

因子分析通常接着对因子进行旋转(使用参数 rotation),通常是为了提高可解释性。例如,Varimax 旋转最大化了平方载荷的方差之和,即它倾向于产生更稀疏的因子,这些因子只受少数特征的影响(“简单结构”。例如,参见下面的第一个示例。

示例

2.5.6. 独立成分分析 (ICA)#

独立成分分析将多元信号分离成最大程度独立的加性子成分。它在 scikit-learn 中使用 Fast ICA 算法实现。通常,ICA 不用于降维,而是用于分离叠加的信号。由于 ICA 模型不包含噪声项,因此为了使模型正确,必须应用白化。这可以通过使用 whiten 参数在内部完成,也可以使用 PCA 变体之一手动完成。

它通常用于分离混合信号(一个称为盲源分离的问题),如下面的示例所示

../_images/sphx_glr_plot_ica_blind_source_separation_001.png

ICA 也可以用作另一种非线性分解,它找到具有一定稀疏性的成分

pca_img4 ica_img4

示例

2.5.7. 非负矩阵分解 (NMF 或 NNMF)#

2.5.7.1. 使用 Frobenius 范数的 NMF#

NMF [1] 是一种分解的替代方法,它假设数据和组件都是非负的。 NMF 可以代替 PCA 或其变体,在数据矩阵不包含负值的情况下。它通过优化 \(X\) 和矩阵乘积 \(WH\) 之间的距离 \(d\),找到样本 \(X\) 分解为两个非负元素矩阵 \(W\)\(H\) 的方法。最常用的距离函数是平方弗罗贝尼乌斯范数,它是欧几里得范数到矩阵的明显扩展

\[d_{\mathrm{Fro}}(X, Y) = \frac{1}{2} ||X - Y||_{\mathrm{Fro}}^2 = \frac{1}{2} \sum_{i,j} (X_{ij} - {Y}_{ij})^2\]

PCA 不同,向量的表示是通过叠加组件获得的,而不是减去。这种加法模型对于表示图像和文本非常有效。

在 [Hoyer, 2004] [2] 中观察到,当仔细约束时,NMF 可以生成数据集的基于部分的表示,从而产生可解释的模型。以下示例显示了 NMF 从奥利维蒂人脸数据集中的图像中找到的 16 个稀疏组件,与 PCA 特征脸进行比较。

pca_img5 nmf_img5

The init 属性决定应用的初始化方法,这会对方法的性能产生很大影响。 NMF 实现非负双奇异值分解方法。NNDSVD [4] 基于两个 SVD 过程,一个近似数据矩阵,另一个利用单位秩矩阵的代数性质近似所得部分 SVD 因子的正部分。基本 NNDSVD 算法更适合稀疏分解。它的变体 NNDSVDa(其中所有零都设置为所有数据元素的平均值)和 NNDSVDar(其中零设置为小于数据平均值除以 100 的随机扰动)在密集情况下是推荐的。

请注意,乘法更新(‘mu’)求解器无法更新初始化中存在的零,因此当与引入大量零的基本 NNDSVD 算法一起使用时,会导致较差的结果;在这种情况下,应优先考虑 NNDSVDa 或 NNDSVDar。

NMF 也可以通过设置 init="random" 使用正确缩放的随机非负矩阵进行初始化。一个整数种子或一个 RandomState 也可以传递给 random_state 来控制可重复性。

NMF 中,可以将 L1 和 L2 先验添加到损失函数中以正则化模型。L2 先验使用弗罗贝尼乌斯范数,而 L1 先验使用逐元素 L1 范数。与 ElasticNet 一样,我们使用 l1_ratio (\(\rho\)) 参数控制 L1 和 L2 的组合,并使用 alpha_Walpha_H (\(\alpha_W\)\(\alpha_H\)) 参数控制正则化的强度。先验项按样本数量 (\(n\_samples\)) 缩放 H,按特征数量 (\(n\_features\)) 缩放 W,以保持它们的影响相对于彼此和数据拟合项尽可能平衡,并且尽可能独立于训练集的大小。然后先验项为

\[(\alpha_W \rho ||W||_1 + \frac{\alpha_W(1-\rho)}{2} ||W||_{\mathrm{Fro}} ^ 2) * n\_features + (\alpha_H \rho ||H||_1 + \frac{\alpha_H(1-\rho)}{2} ||H||_{\mathrm{Fro}} ^ 2) * n\_samples\]

正则化目标函数为

\[d_{\mathrm{Fro}}(X, WH) + (\alpha_W \rho ||W||_1 + \frac{\alpha_W(1-\rho)}{2} ||W||_{\mathrm{Fro}} ^ 2) * n\_features + (\alpha_H \rho ||H||_1 + \frac{\alpha_H(1-\rho)}{2} ||H||_{\mathrm{Fro}} ^ 2) * n\_samples\]

2.5.7.2. 使用 beta 散度的 NMF#

如前所述,最常用的距离函数是平方弗罗贝尼乌斯范数,它是欧几里得范数到矩阵的明显扩展

\[d_{\mathrm{Fro}}(X, Y) = \frac{1}{2} ||X - Y||_{Fro}^2 = \frac{1}{2} \sum_{i,j} (X_{ij} - {Y}_{ij})^2\]

其他距离函数也可以用在 NMF 中,例如(广义)库尔贝克-莱布勒(KL)散度,也称为 I 散度

\[d_{KL}(X, Y) = \sum_{i,j} (X_{ij} \log(\frac{X_{ij}}{Y_{ij}}) - X_{ij} + Y_{ij})\]

或者,伊塔库拉-斋藤(IS)散度

\[d_{IS}(X, Y) = \sum_{i,j} (\frac{X_{ij}}{Y_{ij}} - \log(\frac{X_{ij}}{Y_{ij}}) - 1)\]

这三个距离是 beta 散度族的特例,分别为 \(\beta = 2, 1, 0\) [6]。beta 散度由以下定义

\[d_{\beta}(X, Y) = \sum_{i,j} \frac{1}{\beta(\beta - 1)}(X_{ij}^\beta + (\beta-1)Y_{ij}^\beta - \beta X_{ij} Y_{ij}^{\beta - 1})\]
../_images/beta_divergence.png

请注意,如果 \(\beta \in (0; 1)\),则此定义无效,但它可以连续扩展到 \(d_{KL}\)\(d_{IS}\) 的定义。

NMF 实现的求解器#

NMF 实现两个求解器,使用坐标下降(‘cd’) [5] 和乘法更新(‘mu’) [6]。‘mu’ 求解器可以优化每个 beta 散度,当然包括弗罗贝尼乌斯范数 (\(\beta=2\))、(广义)库尔贝克-莱布勒散度 (\(\beta=1\)) 和伊塔库拉-斋藤散度 (\(\beta=0\))。请注意,对于 \(\beta \in (1; 2)\),‘mu’ 求解器明显快于其他 \(\beta\) 值。还要注意,对于负数(或 0,即 ‘itakura-saito’)\(\beta\),输入矩阵不能包含零值。

‘cd’ 求解器只能优化弗罗贝尼乌斯范数。由于 NMF 的底层非凸性,不同的求解器可能会收敛到不同的最小值,即使优化相同的距离函数也是如此。

NMF 最好与 fit_transform 方法一起使用,该方法返回矩阵 W。矩阵 H 存储在拟合模型的 components_ 属性中;transform 方法将根据这些存储的组件分解新的矩阵 X_new

>>> import numpy as np
>>> X = np.array([[1, 1], [2, 1], [3, 1.2], [4, 1], [5, 0.8], [6, 1]])
>>> from sklearn.decomposition import NMF
>>> model = NMF(n_components=2, init='random', random_state=0)
>>> W = model.fit_transform(X)
>>> H = model.components_
>>> X_new = np.array([[1, 0], [1, 6.1], [1, 0], [1, 4], [3.2, 1], [0, 4]])
>>> W_new = model.transform(X_new)

示例

2.5.7.3. 小批量非负矩阵分解#

MiniBatchNMF [7] 实现了一个更快但不太准确的非负矩阵分解版本(即 NMF),更适合大型数据集。

默认情况下,MiniBatchNMF 将数据划分为小批量,并通过对小批量循环指定的迭代次数以在线方式优化 NMF 模型。 batch_size 参数控制批次的大小。

为了加快小批量算法的速度,还可以对过去的批量进行缩放,使其比新批量的重要性低。这是通过引入一个称为遗忘因子的因子来实现的,该因子由 forget_factor 参数控制。

估计器还实现了 partial_fit,它通过仅对小批量迭代一次来更新 H。这可用于在线学习,当数据从一开始就不可用,或者当数据无法放入内存时。

参考文献

2.5.8. 潜在狄利克雷分配 (LDA)#

潜在狄利克雷分配是一种用于离散数据集集合(如文本语料库)的生成概率模型。它也是一种主题模型,用于从文档集合中发现抽象主题。

LDA 的图形模型是一个三层生成模型

../_images/lda_model_graph.png

关于上面图形模型中显示的符号的说明,可以在 Hoffman 等人(2013)中找到

  • 语料库是 \(D\) 个文档的集合。

  • 文档是 \(N\) 个词的序列。

  • 语料库中有 \(K\) 个主题。

  • 方框表示重复采样。

在图形模型中,每个节点都是一个随机变量,在生成过程中起作用。阴影节点表示观察到的变量,非阴影节点表示隐藏(潜在)变量。在这种情况下,语料库中的词是我们唯一观察到的数据。潜在变量决定了语料库中主题的随机混合以及文档中词的分布。LDA 的目标是使用观察到的词来推断隐藏的主题结构。

关于对文本语料库建模的详细信息#

在对文本语料库建模时,该模型假设以下生成过程适用于具有 \(D\) 个文档和 \(K\) 个主题的语料库,其中 \(K\) 对应于 API 中的 n_components

  1. 对于每个主题 \(k \in K\),绘制 \(\beta_k \sim \mathrm{Dirichlet}(\eta)\)。这提供了对词的分布,即词出现在主题 \(k\) 中的概率。 \(\eta\) 对应于 topic_word_prior

  2. 对于每个文档 \(d \in D\),绘制主题比例 \(\theta_d \sim \mathrm{Dirichlet}(\alpha)\)\(\alpha\) 对应于 doc_topic_prior

  3. 对于文档 \(d\) 中的每个词 \(i\)

    1. 绘制主题分配 \(z_{di} \sim \mathrm{Multinomial} (\theta_d)\)

    2. 绘制观察到的词 \(w_{ij} \sim \mathrm{Multinomial} (\beta_{z_{di}})\)

对于参数估计,后验分布为

\[p(z, \theta, \beta |w, \alpha, \eta) = \frac{p(z, \theta, \beta|\alpha, \eta)}{p(w|\alpha, \eta)}\]

由于后验是难以处理的,变分贝叶斯方法使用更简单的分布 \(q(z,\theta,\beta | \lambda, \phi, \gamma)\) 来近似它,并且这些变分参数 \(\lambda\)\(\phi\)\(\gamma\) 被优化以最大化证据下界 (ELBO)

\[\log\: P(w | \alpha, \eta) \geq L(w,\phi,\gamma,\lambda) \overset{\triangle}{=} E_{q}[\log\:p(w,z,\theta,\beta|\alpha,\eta)] - E_{q}[\log\:q(z, \theta, \beta)]\]

最大化 ELBO 等效于最小化 \(q(z,\theta,\beta)\) 和真实后验 \(p(z, \theta, \beta |w, \alpha, \eta)\) 之间的 Kullback-Leibler (KL) 散度。

LatentDirichletAllocation 实施了在线变分贝叶斯算法,并支持在线和批处理更新方法。虽然批处理方法在对数据进行完整遍历后更新变分变量,但在线方法从小型批次数据点更新变分变量。

注意

虽然在线方法保证收敛到局部最优点,但最优点的质量和收敛速度可能取决于小型批次大小以及与学习率设置相关的属性。

LatentDirichletAllocation 应用于“文档-词语”矩阵时,该矩阵将被分解为“主题-词语”矩阵和“文档-主题”矩阵。虽然“主题-词语”矩阵存储在模型中的 components_ 中,“文档-主题”矩阵可以通过 transform 方法计算。

LatentDirichletAllocation 还实现了 partial_fit 方法。当数据可以按顺序获取时,使用此方法。

示例

参考文献

另请参见 降维,了解使用邻域成分分析进行降维。