dump_svmlight_file#

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[source]#

以 svmlight / libsvm 文件格式转储数据集。

此格式是基于文本的格式,每行一个样本。它不存储零值特征,因此适用于稀疏数据集。

每行的第一个元素可用于存储要预测的目标变量。

参数:
Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}

训练向量,其中 n_samples 是样本数量,n_features 是特征数量。

y{array-like, sparse matrix}, shape = (n_samples,) or (n_samples, n_labels)

目标值。对于多标签分类,类别标签必须是整数或浮点数,或者是整数或浮点数的类数组对象。

fstr or file-like in binary mode

如果为字符串,则指定将包含数据的路径。如果为文件类对象,则数据将写入 f。f 应以二进制模式打开。

zero_basedbool, default=True

列索引是应按零基(True)还是按一基(False)写入。

commentstr or bytes, default=None

要插入到文件顶部的注释。这应该是一个 Unicode 字符串(将编码为 UTF-8)或一个 ASCII 字节字符串。如果提供了注释,则前面会有一个标识此文件由 scikit-learn 转储的注释。请注意,并非所有工具都能理解 SVMlight 文件中的注释。

query_idarray-like of shape (n_samples,), default=None

包含成对偏好约束(svmlight 格式中的 qid)的数组。

multilabelbool, default=False

每个样本可能具有多个标签(参见 https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)。

版本 0.17 中新增: 参数 multilabel 以支持多标签数据集。

示例

>>> from sklearn.datasets import dump_svmlight_file, make_classification
>>> X, y = make_classification(random_state=0)
>>> output_file = "my_dataset.svmlight"
>>> dump_svmlight_file(X, y, output_file)