sklearn.random_projection#

随机投影变换器。

随机投影是一种简单且计算高效的方法,可以通过牺牲一定的精度(作为额外方差)来降低数据的维度,从而实现更快的处理时间和更小的模型尺寸。

随机投影矩阵的维度和分布受到控制,以保留数据集中任意两个样本之间的成对距离。

随机投影效率背后的主要理论成果是Johnson-Lindenstrauss 引理(引自维基百科)

在数学中,Johnson-Lindenstrauss 引理是关于将高维空间中的点低失真嵌入到低维欧几里得空间的结果。该引理指出,高维空间中的一小部分点可以嵌入到一个维度低得多的空间中,并且点之间的距离几乎得以保留。用于嵌入的映射至少是 Lipschitz 连续的,甚至可以是正交投影。

用户指南。 详见随机投影章节。

GaussianRandomProjection

通过高斯随机投影降低维度。

SparseRandomProjection

通过稀疏随机投影降低维度。

johnson_lindenstrauss_min_dim

找到一个“安全”的随机投影分量数。