加载文件#
- sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0, allowed_extensions=None)[source]#
加载带有类别(子文件夹名称)的文本文件。
假设单个样本是存储在两层文件夹结构中的文件,例如:
container_folder/ category_1_folder/ file_1.txt file_2.txt ... file_42.txt category_2_folder/ file_43.txt file_44.txt ...
文件夹名称用作监督信号标签名称。单个文件名并不重要。
此函数不会尝试将特征提取到 NumPy 数组或 SciPy 稀疏矩阵中。此外,如果 load_content 为假,则不会尝试将文件加载到内存中。
要在 scikit-learn 分类或聚类算法中使用文本文件,需要使用
text
模块构建适合您问题的特征提取转换器。如果将 load_content 设置为 True,则还应使用“encoding”参数指定文本的编码。对于许多现代文本文件,“utf-8”将是正确的编码。如果将 encoding 保持为 None,则内容将由字节而不是 Unicode 组成,并且将无法使用
text
中的大多数函数。应该为其他类型的非结构化数据输入(如图像、音频、视频等)构建类似的特征提取器。
如果想要具有特定文件扩展名(例如
.txt
)的文件,则可以将这些文件扩展名的列表传递给allowed_extensions
。在 用户指南 中了解更多信息。
- 参数:
- container_pathstr
包含每个类别一个子文件夹的主文件夹的路径。
- descriptionstr, default=None
描述数据集特征的段落:其来源、参考文献等。
- categoriesstr 列表, default=None
如果为 None(默认值),则加载所有类别。如果不是 None,则加载的类别名称列表(其他类别将被忽略)。
- load_contentbool, default=True
是否加载不同文件的内容。如果为真,则返回的数据结构中存在包含文本信息的“data”属性。如果不是,则 filenames 属性给出文件的路径。
- shufflebool, default=True
是否打乱数据:对于做出样本独立同分布 (i.i.d.) 假设的模型(例如随机梯度下降)可能很重要。
- encodingstr, default=None
如果为 None,则不尝试解码文件的内容(例如图像或其他非文本内容)。如果非 None,则在 load_content 为 True 时用于将文本文件解码为 Unicode 的编码。
- decode_error{'strict', 'ignore', 'replace'}, default='strict'
关于如果给定要分析的字节序列包含给定
encoding
之外的字符,该怎么做。作为关键字参数“errors”传递给 bytes.decode。- random_stateint, RandomState 实例或 None, default=0
确定数据集洗牌的随机数生成。传递一个整数以在多次函数调用中获得可重现的输出。参见 词汇表。
- allowed_extensionsstr 列表, default=None
要过滤以加载的文件的所需文件扩展名列表。
- 返回:
- data
Bunch
类似字典的对象,具有以下属性。
- datastr 列表
仅在
load_content=True
时出现。要学习的原始文本数据。- targetndarray
目标标签(整数索引)。
- target_nameslist
目标类的名称。
- DESCRstr
数据集的完整描述。
- filenames: ndarray
保存数据集的文件名。
- data
示例
>>> from sklearn.datasets import load_files >>> container_path = "./" >>> load_files(container_path)