生成具有钟形奇异值的低秩矩阵#

sklearn.datasets.make_low_rank_matrix(n_samples=100, n_features=100, *, effective_rank=10, tail_strength=0.5, random_state=None)[source]#

生成一个主要为低秩的矩阵,其奇异值呈钟形分布。

大部分方差可以用宽度为effective_rank的钟形曲线来解释:奇异值分布的低秩部分为

(1 - tail_strength) * exp(-1.0 * (i / effective_rank) ** 2)

其余奇异值的尾部较粗,递减为

tail_strength * exp(-0.1 * i / effective_rank).

分布的低秩部分可以被认为是数据的结构化信号部分,而尾部可以被认为是数据的噪声部分,无法用少量线性分量(奇异向量)来概括。

这种奇异值分布在实践中经常出现,例如:
  • 人脸灰度图像

  • 从网络抓取的文本文档的TF-IDF向量

更多信息请阅读用户指南

参数:
n_samplesint, default=100

样本数量。

n_featuresint, default=100

特征数量。

effective_rankint,默认值=10

通过线性组合解释大部分数据的奇异向量近似个数。

tail_strengthfloat,默认值=0.5

奇异值谱中较大的噪声尾部的相对重要性。该值应在0到1之间。

random_stateint,RandomState 实例或 None,默认值=None

确定数据集创建的随机数生成。传递一个整数以在多次函数调用中获得可重复的输出。参见 词汇表

返回:
X形状为 (n_samples, n_features) 的 ndarray

矩阵。

示例

>>> from numpy.linalg import svd
>>> from sklearn.datasets import make_low_rank_matrix
>>> X = make_low_rank_matrix(
...     n_samples=50,
...     n_features=25,
...     effective_rank=5,
...     tail_strength=0.01,
...     random_state=0,
... )
>>> X.shape
(50, 25)