sklearn.random_projection 模块#

随机投影变换器。

随机投影是一种简单且计算效率高的降维方法,它以牺牲可控的精度(作为附加方差)为代价,换取更快的处理速度和更小的模型尺寸。

随机投影矩阵的维数和分布受到控制,以便保留数据集任何两个样本之间的成对距离。

随机投影效率背后的主要理论结果是Johnson-Lindenstrauss 引理(引用维基百科)

在数学中,Johnson-Lindenstrauss 引理是一个关于将高维空间中的点嵌入到低维欧几里德空间中的低失真嵌入的结果。该引理指出,高维空间中的一小组点可以嵌入到低得多的维数空间中,这样点之间的距离几乎可以保持不变。用于嵌入的映射至少是 Lipschitz 映射,甚至可以取为正交投影。

**用户指南。** 有关更多详细信息,请参阅随机投影部分。

高斯随机投影 (GaussianRandomProjection)

通过高斯随机投影降维。

稀疏随机投影 (SparseRandomProjection)

通过稀疏随机投影降维。

Johnson-Lindenstrauss 引理最小维数 (johnson_lindenstrauss_min_dim)

找到一个“安全”的随机投影到的成分数量。