MiniBatchNMF#

class sklearn.decomposition.MiniBatchNMF(n_components='auto', *, init=None, batch_size=1024, beta_loss='frobenius', tol=0.0001, max_no_improvement=10, max_iter=200, alpha_W=0.0, alpha_H='same', l1_ratio=0.0, forget_factor=0.7, fresh_restarts=False, fresh_restarts_max_iter=30, transform_max_iter=None, random_state=None, verbose=0)[source]#

Mini-Batch 非负矩阵分解 (NMF)。

版本 1.1 中新增。

找到两个非负矩阵，即所有元素都非负的矩阵（W, H），其乘积近似非负矩阵 X。这种分解可用于例如降维、源分离或主题提取。

目标函数为

\[ \begin{align}\begin{aligned}L(W, H) &= 0.5 * ||X - WH||_{loss}^2\\ &+ alpha\_W * l1\_ratio * n\_features * ||vec(W)||_1\\ &+ alpha\_H * l1\_ratio * n\_samples * ||vec(H)||_1\\ &+ 0.5 * alpha\_W * (1 - l1\_ratio) * n\_features * ||W||_{Fro}^2\\ &+ 0.5 * alpha\_H * (1 - l1\_ratio) * n\_samples * ||H||_{Fro}^2,\end{aligned}\end{align} \]

其中 $||A||_{Fro}^2 = \sum_{i,j} A_{ij}^2$（Frobenius 范数）和 $||vec(A)||_1 = \sum_{i,j} abs(A_{ij})$（逐元素 L1 范数）。

通用范数 $||X - WH||_{loss}^2$ 可以表示 Frobenius 范数或另一种受支持的 beta-散度损失。选项的选择由 beta_loss 参数控制。

目标函数通过交替最小化 W 和 H 来最小化。

请注意，转换后的数据命名为 W，成分矩阵命名为 H。在 NMF 文献中，由于数据矩阵 X 被转置，所以命名约定通常是相反的。

在用户指南中阅读更多内容。

参数:

n_componentsint or {‘auto’} or None, default=’auto’

组件数量。如果为 None，则保留所有特征。如果 n_components='auto'，则组件数量将根据 W 或 H 的形状自动推断。

版本 1.4 中更改: 添加了 'auto' 值。

版本 1.6 中更改: 默认值从 None 更改为 'auto'。

init{‘random’, ‘nndsvd’, ‘nndsvda’, ‘nndsvdar’, ‘custom’}, default=None

用于初始化过程的方法。有效选项：

None: 如果 n_components <= min(n_samples, n_features)，则为 ‘nndsvda’，否则为随机。
'random': 非负随机矩阵，按 sqrt(X.mean() / n_components) 缩放
'nndsvd': 非负双奇异值分解 (NNDSVD) 初始化（更利于稀疏性）。
'nndsvda': NNDSVD，零值用 X 的平均值填充（当不需要稀疏性时效果更好）。
'nndsvdar': NNDSVD，零值用小的随机值填充（通常比 NNDSVDa 更快，准确性稍差，适用于不需要稀疏性时）。
'custom': 使用自定义矩阵 W 和 H，两者都必须提供。

batch_sizeint, default=1024

每个 mini-batch 中的样本数量。大的 batch size 以较慢的启动为代价，提供更好的长期收敛。

beta_lossfloat or {‘frobenius’, ‘kullback-leibler’, ‘itakura-saito’}, default=’frobenius’

要最小化的 Beta 散度，用于衡量 X 和点积 WH 之间的距离。请注意，与 'frobenius'（或 2）和 'kullback-leibler'（或 1）不同的值会导致拟合速度显著变慢。请注意，对于 beta_loss <= 0（或 'itakura-saito'），输入矩阵 X 不能包含零。

tolfloat, default=1e-4

根据两个步骤之间 H 中差异的范数控制早期停止。要禁用基于 H 变化的早期停止，请将 tol 设置为 0.0。

max_no_improvementint, default=10

根据连续未能改善平滑成本函数的 mini-batch 数量控制早期停止。要禁用基于成本函数的收敛检测，请将 max_no_improvement 设置为 None。

max_iter整型, 默认为 200

在超时之前，对整个数据集的最大迭代次数。

alpha_Wfloat, default=0.0

乘以 W 的正则化项的常数。将其设置为零（默认值）表示不对 W 进行正则化。

alpha_Hfloat or “same”, default=”same”

乘以 H 的正则化项的常数。将其设置为零表示不对 H 进行正则化。如果为 “same”（默认值），则取与 alpha_W 相同的值。

l1_ratiofloat, default=0.0

正则化混合参数，0 <= l1_ratio <= 1。当 l1_ratio = 0 时，惩罚项是元素级的 L2 惩罚（又称 Frobenius 范数）。当 l1_ratio = 1 时，惩罚项是元素级的 L1 惩罚。当 0 < l1_ratio < 1 时，惩罚项是 L1 和 L2 的组合。

forget_factorfloat, default=0.7

对过去信息进行重新缩放的量。对于有限数据集，其值可以为 1。建议在线学习中选择小于 1 的值，因为较新的批次将比过去的批次权重更大。

fresh_restartsbool, default=False

是否在每个步骤中完全求解 W。进行全新重启可能会在相同的迭代次数下获得更好的解决方案，但速度会慢得多。

fresh_restarts_max_iterint, default=30

在每个步骤中求解 W 时的最大迭代次数。仅在进行全新重启时使用。这些迭代可能会根据由 tol 控制的 W 的微小变化而提前停止。

transform_max_iterint, default=None

在转换时求解 W 的最大迭代次数。如果为 None，则默认为 max_iter。

random_stateint, RandomState instance or None, default=None

用于初始化（当 init == 'nndsvdar' 或 'random'）和坐标下降。传入一个整数可在多次函数调用中获得可重现的结果。参见术语表。

verbosebool, default=False

是否启用详细模式。

属性:

components_ndarray of shape (n_components, n_features): 分解矩阵，有时称为“字典”。
n_components_int: 组件的数量。如果已给出 n_components 参数，则与该参数相同。否则，它将与特征数量相同。
reconstruction_err_float: 训练数据 X 与拟合模型重建数据 WH 之间的矩阵差的 Frobenius 范数或 beta-散度。
n_iter_int: 对整个数据集实际开始的迭代次数。
n_steps_int: 已处理的 mini-batch 数量。
n_features_in_int: 在拟合期间看到的特征数。
feature_names_in_shape 为 (n_features_in_,) 的 ndarray: 在 fit 期间看到的特征名称。仅当 X 具有全部为字符串的特征名称时才定义。

另请参阅

NMF: 非负矩阵分解。
MiniBatchDictionaryLearning: 找到一个可以最好地用稀疏代码表示数据的字典。

References

[1]

“Fast local algorithms for large scale nonnegative matrix and tensor factorizations” Cichocki, Andrzej, and P. H. A. N. Anh-Huy. IEICE transactions on fundamentals of electronics, communications and computer sciences 92.3: 708-721, 2009.

[2]

“Algorithms for nonnegative matrix factorization with the beta-divergence” Fevotte, C., & Idier, J. (2011). Neural Computation, 23(9).

[3]

“带有 Itakura-Saito 散度的非负矩阵分解在线算法” Lefevre, A., Bach, F., Fevotte, C. (2011). WASPA。

示例

>>> import numpy as np
>>> X = np.array([[1, 1], [2, 1], [3, 1.2], [4, 1], [5, 0.8], [6, 1]])
>>> from sklearn.decomposition import MiniBatchNMF
>>> model = MiniBatchNMF(n_components=2, init='random', random_state=0)
>>> W = model.fit_transform(X)
>>> H = model.components_

fit(X, y=None, **params)[source]#

为数据 X 学习一个 NMF 模型。

参数:

Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}: 训练向量，其中 n_samples 是样本数，n_features 是特征数。
y被忽略: 未使用，按照惯例为保持 API 一致性而存在。
**paramskwargs: 传递给 fit_transform 实例的参数（关键字参数）和值。

返回:

selfobject: 返回实例本身。

fit_transform(X, y=None, W=None, H=None)[source]#

为数据 X 学习一个 NMF 模型并返回转换后的数据。

这比先调用 fit 再调用 transform 更高效。

参数:

Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}: 要分解的数据矩阵。
y被忽略: Not used, present here for API consistency by convention.
Warray-like of shape (n_samples, n_components), default=None: 如果 init='custom'，则将其用作解决方案的初始猜测。如果为 None，则使用 init 中指定的初始化方法。
Harray-like of shape (n_components, n_features), default=None: 如果 init='custom'，则将其用作解决方案的初始猜测。如果为 None，则使用 init 中指定的初始化方法。

返回:

Wndarray of shape (n_samples, n_components): 转换后的数据。

get_feature_names_out(input_features=None)[source]#

获取转换的输出特征名称。

The feature names out will prefixed by the lowercased class name. For example, if the transformer outputs 3 features, then the feature names out are: ["class_name0", "class_name1", "class_name2"].

参数:

input_featuresarray-like of str or None, default=None: Only used to validate feature names with the names seen in fit.

返回:

feature_names_outstr 对象的 ndarray: 转换后的特征名称。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查阅用户指南，了解路由机制如何工作。

返回:

routingMetadataRequest: 封装路由信息的 MetadataRequest。

get_params(deep=True)[source]#

获取此估计器的参数。

参数:

deepbool, default=True: 如果为 True，将返回此估计器以及包含的子对象（如果它们是估计器）的参数。

返回:

paramsdict: 参数名称映射到其值。

inverse_transform(X)[source]#

将数据转换回其原始空间。

版本 0.18 新增。

参数:

X{ndarray, sparse matrix} 形状为 (n_samples, n_components): 转换后的数据矩阵。

返回:

X_original形状为 (n_samples, n_features) 的 ndarray: 返回原始形状的数据矩阵。

partial_fit(X, y=None, W=None, H=None)[source]#

使用 X 中的数据作为 mini-batch 来更新模型。

此方法旨在连续多次在数据集的不同块上调用，以实现核外或在线学习。

当整个数据集过大而无法一次性载入内存时，这尤其有用（参见计算扩展策略：更大规模数据）。

参数:

Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}: 要分解的数据矩阵。
y被忽略: Not used, present here for API consistency by convention.
Warray-like of shape (n_samples, n_components), default=None: 如果 init='custom'，则将其用作解决方案的初始猜测。仅在首次调用 partial_fit 时使用。
Harray-like of shape (n_components, n_features), default=None: 如果 init='custom'，则将其用作解决方案的初始猜测。仅在首次调用 partial_fit 时使用。

返回:

self: 返回实例本身。

set_output(*, transform=None)[source]#

设置输出容器。

有关如何使用 API 的示例，请参阅引入 set_output API。

参数:

transform{“default”, “pandas”, “polars”}, default=None

配置 transform 和 fit_transform 的输出。

"default": 转换器的默认输出格式
"pandas": DataFrame 输出
"polars": Polars 输出
None: 转换配置保持不变

1.4 版本新增: 添加了 "polars" 选项。

返回:

selfestimator instance: 估计器实例。

set_params(**params)[source]#

设置此估计器的参数。

此方法适用于简单的估计器以及嵌套对象（如 Pipeline）。后者具有 <component>__<parameter> 形式的参数，以便可以更新嵌套对象的每个组件。

参数:

**paramsdict: 估计器参数。

返回:

selfestimator instance: 估计器实例。

set_partial_fit_request(*, H: bool | None | str = '$UNCHANGED$', W: bool | None | str = '$UNCHANGED$') → MiniBatchNMF[source]#

Configure whether metadata should be requested to be passed to the partial_fit method.

请注意，此方法仅在以下情况下相关：此估计器用作元估计器中的子估计器，并且通过 enable_metadata_routing=True 启用了元数据路由（请参阅 sklearn.set_config）。请查看用户指南以了解路由机制的工作原理。

每个参数的选项如下：

True: metadata is requested, and passed to partial_fit if provided. The request is ignored if metadata is not provided.
False: metadata is not requested and the meta-estimator will not pass it to partial_fit.
None：不请求元数据，如果用户提供元数据，元估计器将引发错误。
str：应将元数据以给定别名而不是原始名称传递给元估计器。

默认值 (sklearn.utils.metadata_routing.UNCHANGED) 保留现有请求。这允许您更改某些参数的请求而不更改其他参数。

在版本 1.3 中新增。

参数:

Hstr, True, False, 或 None, default=sklearn.utils.metadata_routing.UNCHANGED: partial_fit 中 H 参数的元数据路由。
Wstr, True, False, 或 None, default=sklearn.utils.metadata_routing.UNCHANGED: partial_fit 中 W 参数的元数据路由。

返回: