8. 数据集加载工具#
The sklearn.datasets
包内嵌了一些小型玩具数据集,并提供了获取机器学习社区常用于在“真实世界”数据上基准测试算法的大规模数据集的辅助函数。
为了评估数据集规模(n_samples
和 n_features
)的影响,同时控制数据的统计特性(通常是特征的相关性和信息量),也可以生成合成数据。
通用数据集API。 主要有三种数据集接口,可根据所需数据集类型用于获取数据集。
数据集加载器。 它们可用于加载小型标准数据集,具体见玩具数据集章节。
数据集获取器。 它们可用于下载和加载大型数据集,具体见真实世界数据集章节。
加载器和获取器函数都返回一个Bunch
对象,该对象至少包含两个项:一个形状为 n_samples
* n_features
的数组(键为 data
,20newsgroups 除外),和一个长度为 n_samples
的 NumPy 数组(包含目标值,键为 target
)。
Bunch 对象是一个字典,它将其键作为属性公开。有关 Bunch 对象的更多信息,请参阅Bunch
。
对于几乎所有这些函数,也可以通过将 return_X_y
参数设置为 True
,将输出限制为仅包含数据和目标值的元组。
数据集在其 DESCR
属性中也包含完整描述,有些还包含 feature_names
和 target_names
。详细信息请参阅下文的数据集描述。
数据集生成函数。 它们可用于生成可控的合成数据集,具体见生成数据集章节。
这些函数返回一个元组 (X, y)
,包含一个形状为 n_samples
* n_features
的 NumPy 数组 X
和一个长度为 n_samples
的数组(包含目标值 y
)。
此外,还有其他各种工具可用于加载其他格式或来自其他位置的数据集,具体见加载其他数据集章节。