8. 数据集加载工具#
sklearn.datasets 包嵌入了一些小型玩具数据集,并提供辅助函数来获取机器学习社区通常用于对来自“真实世界”的数据进行基准测试的更大规模数据集。
为了评估数据集规模(n_samples 和 n_features)的影响,同时控制数据的统计特性(通常是特征的相关性和信息量),也可以生成合成数据。
通用数据集 API。 根据所需的数据集类型,有三种主要的数据集接口可用于获取数据集。
数据集加载器。 它们可用于加载小型标准数据集,如玩具数据集部分所述。
数据集获取器。 它们可用于下载和加载更大规模的数据集,如真实世界数据集部分所述。
加载器和获取器函数都返回一个 Bunch 对象,该对象至少包含两个项:一个形状为 n_samples * n_features 的数组,键为 data(20newsgroups除外),以及一个长度为 n_samples 的 numpy 数组,包含目标值,键为 target。
Bunch 对象是一个字典,它将其键作为属性公开。有关 Bunch 对象的更多信息,请参阅 Bunch。
通过将 return_X_y 参数设置为 True,几乎所有这些函数也可以将输出限制为仅包含数据和目标的元组。
数据集在其 DESCR 属性中包含完整的描述,有些包含 feature_names 和 target_names。有关详细信息,请参阅下面的数据集描述。
数据集生成函数。 它们可用于生成受控的合成数据集,如生成的数据集部分所述。
这些函数返回一个元组 (X, y),其中包含一个 n_samples * n_features numpy 数组 X 和一个长度为 n_samples 的包含目标 y 的数组。
此外,还有一些杂项工具用于加载其他格式或来自其他位置的数据集,如加载其他数据集部分所述。