主成分分析 (PCA)#

class sklearn.decomposition.PCA(n_components=None, *, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', n_oversamples=10, power_iteration_normalizer='auto', random_state=None)[source]#

主成分分析 (PCA)。

使用数据的奇异值分解进行线性降维，将其投影到低维空间。在应用SVD之前，输入数据每个特征都进行了中心化处理，但未进行缩放。

它根据输入数据的形状和要提取的成分数量，使用LAPACK实现的全SVD或Halko等人2009年提出的随机截断SVD方法。

对于稀疏输入，可以使用ARPACK实现的截断SVD（即通过scipy.sparse.linalg.svds）。或者，可以考虑使用TruncatedSVD，其中数据未进行中心化。

请注意，此类仅支持某些求解器（例如“arpack”和“covariance_eigh”）的稀疏输入。有关使用稀疏数据的替代方法，请参见TruncatedSVD。

有关用法示例，请参见鸢尾花数据集上的主成分分析 (PCA)

在用户指南中了解更多信息。

参数：

n_componentsint、float 或 ‘mle’，默认为 None

要保留的成分数量。如果未设置 n_components，则保留所有成分。

n_components == min(n_samples, n_features)

如果n_components == 'mle'且svd_solver == 'full'，则使用 Minka 的 MLE 来猜测维度。n_components == 'mle' 的使用会将 svd_solver == 'auto' 解释为 svd_solver == 'full'。

如果0 < n_components < 1且svd_solver == 'full'，则选择成分数量，以使需要解释的方差量大于 n_components 指定的百分比。

如果svd_solver == 'arpack'，则成分数量必须严格小于 n_features 和 n_samples 的最小值。

因此，None 情况导致

n_components == min(n_samples, n_features) - 1

copybool，默认为 True

如果为 False，则传递给 fit 的数据将被覆盖，并且运行 fit(X).transform(X) 将不会产生预期的结果，请改用 fit_transform(X)。

whitenbool，默认为 False

当为 True（默认为 False）时，components_ 向量将乘以 n_samples 的平方根，然后除以奇异值，以确保具有单位分量方差的非相关输出。

白化将从变换后的信号中去除一些信息（成分的相对方差尺度），但有时可以通过使它们的数据满足某些硬编码的假设来提高下游估计器的预测精度。

svd_solver{'auto'、'full'、'covariance_eigh'、'arpack'、'randomized'}，默认为 'auto'

“auto”: 求解器由默认的“auto”策略选择，该策略基于X.shape和n_components：如果输入数据特征少于 1000 个，并且样本数量超过特征数量的 10 倍，则使用“covariance_eigh”求解器。否则，如果输入数据大于 500x500，并且要提取的成分数量低于数据最小维度的 80%，则选择更高效的“randomized”方法。否则，将计算精确的“full”SVD，并可选地在之后进行截断。
“full”: 通过 scipy.linalg.svd 调用标准 LAPACK 求解器运行精确的全 SVD，并通过后处理选择成分。
“covariance_eigh”: 预计算协方差矩阵（在居中数据上），在协方差矩阵上运行经典特征值分解（通常使用 LAPACK），并通过后处理选择成分。对于 n_samples >> n_features 和小的 n_features，此求解器非常高效。但是，对于大型 n_features（需要大量的内存占用才能实现协方差矩阵），否则它是不可处理的。另请注意，与“full”求解器相比，此求解器有效地将条件数加倍，因此数值稳定性较差（例如，在具有较大奇异值范围的输入数据上）。
“arpack”: 通过 scipy.sparse.linalg.svds 调用 ARPACK 求解器运行截断到 n_components 的 SVD。它需要严格 0 < n_components < min(X.shape)
“randomized”: 通过 Halko 等人的方法运行随机 SVD。

在 0.18.0 版本中添加。

1.5 版本中的更改：添加了 'covariance_eigh' 求解器。

tolfloat，默认为 0.0

由 svd_solver == 'arpack' 计算的奇异值的容差。必须在 [0.0, infinity) 范围内。

在 0.18.0 版本中添加。

iterated_powerint 或 'auto'，默认为 'auto'

由 svd_solver == 'randomized' 计算的幂方法的迭代次数。必须在 [0, infinity) 范围内。

在 0.18.0 版本中添加。

n_oversamplesint，默认为 10

此参数仅在 svd_solver="randomized" 时才相关。它对应于要对 X 的范围进行采样的额外随机向量数量，以便确保适当的条件。有关更多详细信息，请参见randomized_svd。

在 1.1 版本中添加。

power_iteration_normalizer{'auto', 'QR', 'LU', 'none'}, 默认='auto'

随机 SVD 求解器的幂迭代归一化器。ARPACK 不使用此参数。更多详情请参见 randomized_svd。

在 1.1 版本中添加。

random_stateint、RandomState 实例或 None，默认=None

当使用 'arpack' 或 'randomized' 求解器时使用。传递一个整数可在多次函数调用中获得可重复的结果。参见词汇表。

在 0.18.0 版本中添加。

属性:

components_ndarray，形状 (n_components, n_features)

特征空间中的主轴，表示数据中最大方差的方向。等效地，它是居中输入数据的右奇异向量，平行于其特征向量。这些成分按 explained_variance_ 降序排列。

explained_variance_ndarray，形状 (n_components,)

每个选定成分解释的方差量。方差估计使用 n_samples - 1 自由度。

等于 X 的协方差矩阵的 n_components 个最大特征值。

0.18 版本新增。

explained_variance_ratio_ndarray，形状 (n_components,)

每个选定成分解释的方差百分比。

如果未设置 n_components，则存储所有成分，比率之和等于 1.0。

singular_values_ndarray，形状 (n_components,)

与每个选定成分对应的奇异值。奇异值等于低维空间中 n_components 个变量的 2 范数。

0.19 版本新增。

mean_ndarray，形状 (n_features,)

根据训练集估计的每个特征的经验均值。

等于 X.mean(axis=0)。

n_components_int

估计的成分数量。当 n_components 设置为 'mle' 或 0 到 1 之间的数字（svd_solver == 'full'）时，此数字根据输入数据估算。否则，它等于参数 n_components，或者如果 n_components 为 None，则等于 n_features 和 n_samples 的较小值。

n_samples_int

训练数据中的样本数。

noise_variance_float

根据 Tipping 和 Bishop 1999 年提出的概率 PCA 模型估计的噪声协方差。参见 C. Bishop 的“模式识别与机器学习”12.2.1 页 574 或 http://www.miketipping.com/papers/met-mppca.pdf。它需要计算估计的数据协方差和评分样本。

等于 X 的协方差矩阵的 (min(n_features, n_samples) - n_components) 个最小特征值的平均值。

n_features_in_int

在拟合期间看到的特征数量。

0.24 版本新增。

feature_names_in_ndarray，形状 (n_features_in_,)

在拟合期间看到的特征名称。仅当 X 的特征名称全部为字符串时才定义。

1.0 版本新增。

另请参见

KernelPCA: 核主成分分析。
SparsePCA: 稀疏主成分分析。
TruncatedSVD: 使用截断 SVD 的降维。
IncrementalPCA: 增量主成分分析。

参考文献

对于 n_components == 'mle'，此类使用以下方法：Minka, T. P.. “自动选择 PCA 的维数”。在 NIPS 中，第 598-604 页

通过 score 和 score_samples 方法实现以下概率 PCA 模型：Tipping, M. E., and Bishop, C. M. (1999). “概率主成分分析”。皇家统计学会杂志：B 系（统计方法），61（3），611-622。

对于 svd_solver == 'arpack'，请参考 scipy.sparse.linalg.svds。

对于 svd_solver == 'randomized'，请参见：Halko, N., Martinsson, P. G., and Tropp, J. A. (2011). “用随机性寻找结构：构建近似矩阵分解的概率算法”。SIAM 综述，53（2），217-288。以及 Martinsson, P. G., Rokhlin, V., and Tygert, M. (2011). “一种用于矩阵分解的随机算法”。应用与计算谐波分析，30（1），47-68。

示例

>>> import numpy as np
>>> from sklearn.decomposition import PCA
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> pca = PCA(n_components=2)
>>> pca.fit(X)
PCA(n_components=2)
>>> print(pca.explained_variance_ratio_)
[0.9924... 0.0075...]
>>> print(pca.singular_values_)
[6.30061... 0.54980...]

>>> pca = PCA(n_components=2, svd_solver='full')
>>> pca.fit(X)
PCA(n_components=2, svd_solver='full')
>>> print(pca.explained_variance_ratio_)
[0.9924... 0.00755...]
>>> print(pca.singular_values_)
[6.30061... 0.54980...]

>>> pca = PCA(n_components=1, svd_solver='arpack')
>>> pca.fit(X)
PCA(n_components=1, svd_solver='arpack')
>>> print(pca.explained_variance_ratio_)
[0.99244...]
>>> print(pca.singular_values_)
[6.30061...]