7. 数据集加载工具#

sklearn.datasets 包含一些小型玩具数据集,并提供帮助程序来获取机器学习社区常用的更大数据集,这些数据集通常用于在来自“现实世界”的数据上对算法进行基准测试。

为了评估数据集规模的影响(n_samplesn_features),同时控制数据的统计特性(通常是特征的相关性和信息量),还可以生成合成数据。

通用数据集 API。根据所需的数据集类型,可以使用三种主要类型的数据集接口来获取数据集。

数据集加载器。它们可用于加载小型标准数据集,如玩具数据集部分所述。

数据集获取器。它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。

加载器和获取器函数都返回一个Bunch 对象,该对象至少包含两项:一个形状为 n_samples * n_features 的数组,键为 data(20newsgroups 除外),以及一个长度为 n_samples 的 numpy 数组,包含目标值,键为 target

Bunch 对象是一个字典,它将其键作为属性公开。有关 Bunch 对象的更多信息,请参见Bunch

对于几乎所有这些函数,还可以通过将 return_X_y 参数设置为 True 来限制输出为仅包含数据和目标的元组。

数据集还在其 DESCR 属性中包含完整的描述,有些还包含 feature_namestarget_names。有关详细信息,请参见下面的数据集说明。

数据集生成函数。它们可用于生成受控的合成数据集,如生成数据集部分所述。

这些函数返回一个元组 (X, y),该元组由一个 n_samples * n_features 的 numpy 数组 X 和一个长度为 n_samples 的数组组成,其中包含目标 y

此外,还有一些杂项工具可用于加载其他格式或其他位置的数据集,如加载其他数据集部分所述。