7. 数据集加载工具#
sklearn.datasets
包含一些在 入门 部分介绍的小型玩具数据集。
该包还提供了一些帮助程序,用于获取机器学习社区常用的更大数据集,以便在来自“真实世界”的数据上对算法进行基准测试。
为了评估数据集规模的影响 (n_samples
和 n_features
),同时控制数据的统计属性(通常是特征的相关性和信息量),还可以生成合成数据。
通用数据集 API。 有三种主要的数据集接口,可用于根据所需的数据集类型获取数据集。
数据集加载器。 它们可用于加载小型标准数据集,如 玩具数据集 部分所述。
数据集获取器。 它们可用于下载和加载更大数据集,如 真实世界数据集 部分所述。
加载器和获取器函数都返回一个 Bunch
对象,该对象至少包含两个项目:一个形状为 n_samples
* n_features
的数组,键为 data
(20newsgroups 除外),以及一个长度为 n_samples
的 numpy 数组,包含目标值,键为 target
。
Bunch 对象是一个字典,它将键公开为属性。有关 Bunch 对象的更多信息,请参见 Bunch
。
对于几乎所有这些函数,还可以通过将 return_X_y
参数设置为 True
,将输出限制为仅包含数据和目标的元组。
数据集还在其 DESCR
属性中包含完整描述,有些还包含 feature_names
和 target_names
。有关详细信息,请参见下面的数据集描述。
数据集生成函数。 它们可用于生成受控的合成数据集,如 生成数据集 部分所述。
这些函数返回一个元组 (X, y)
,它包含一个 n_samples
* n_features
的 numpy 数组 X
和一个长度为 n_samples
的数组,包含目标 y
。
此外,还有一些其他工具可以加载其他格式或来自其他位置的数据集,如 加载其他数据集 部分所述。