fetch_openml#

sklearn.datasets.fetch_openml(name: str | None = None, *, version: str | int = 'active', data_id: int | None = None, data_home: str | PathLike | None = None, target_column: str | List | None = 'default-target', cache: bool = True, return_X_y: bool = False, as_frame: str | bool = 'auto', n_retries: int = 3, delay: float = 1.0, parser: str = 'auto', read_csv_kwargs: Dict | None = None)[source]#

通过名称或数据集 ID 从 OpenML 获取数据集。

数据集通过整数 ID 或名称与版本的组合(例如,可能存在多个版本的“iris”数据集)进行唯一标识。请提供名称或 data_id(不能同时提供两者)。如果提供了名称,也可以提供版本。

用户指南中阅读更多内容。

0.20 版新增。

注意

实验性

此 API 处于实验阶段(特别是返回值结构),未来的版本可能会在没有通知或警告的情况下进行小的向后不兼容更改。

参数:
namestr, 默认为 None

数据集的字符串标识符。请注意,OpenML 可以有多个同名数据集。

versionint 或 ‘active’, 默认为 ‘active’

数据集版本。只有在提供了 name 时才能提供。如果为 ‘active’,则使用仍在活动中的最旧版本。由于一个数据集可能存在多个活动版本,并且这些版本可能彼此之间存在根本差异,因此强烈建议设置确切的版本。

data_idint, 默认为 None

数据集的 OpenML ID。这是检索数据集最具体的方式。如果未提供 data_id,则使用 name(和可选的 version)来获取数据集。

data_homestr 或 path-like, 默认为 None

为数据集指定另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在“~/scikit_learn_data”子文件夹中。

target_columnstr, list 或 None, 默认为 ‘default-target’

指定数据中用作目标列的名称。如果为 ‘default-target’,则使用服务器上存储的标准目标列。如果为 None,则所有列都作为数据返回,且目标为 None。如果是列表(字符串),则所有具有这些名称的列都作为多目标返回(注意:并非所有 scikit-learn 分类器都能处理所有类型的多输出组合)。

cachebool, 默认为 True

是否将下载的数据集缓存到 data_home 中。

return_X_ybool, 默认为 False

如果为 True,则返回 (data, target)` 而不是 Bunch 对象。有关 datatarget 对象的更多信息,请参阅下文。

as_framebool 或 ‘auto’, 默认为 ‘auto’

如果为 True,则数据是一个 pandas DataFrame,包含具有适当数据类型(数值、字符串或分类)的列。目标是一个 pandas DataFrame 或 Series,具体取决于 target_columns 的数量。Bunch 将包含一个 frame 属性,其中包含目标和数据。如果 return_X_y 为 True,则 (data, target)` 将是如上所述的 pandas DataFrame 或 Series。

如果 as_frame 为 ‘auto’,则数据和目标将被转换为 DataFrame 或 Series,如同 as_frame 设置为 True 一样,除非数据集以稀疏格式存储。

如果 as_frame 为 False,则数据和目标将是 NumPy 数组,并且当 parser="liac-arff" 时,data 将只包含数值,其中类别在 Bunch 实例的 categories 属性中提供。当 parser="pandas" 时,不进行序数编码。

0.24 版更改: 在 0.24 版中,as_frame 的默认值从 False 更改为 'auto'

n_retriesint, 默认为 3

遇到 HTTP 错误或网络超时时的重试次数。状态码为 412 的错误不会重试,因为它们代表 OpenML 通用错误。

delayfloat, 默认为 1.0

每次重试之间的秒数。

parser{“auto”, “pandas”, “liac-arff”}, 默认为 “auto”

用于加载 ARFF 文件的解析器。实现了两种解析器:

  • "pandas": 这是最有效的解析器。但是,它需要安装 pandas 并且只能打开密集数据集。

  • "liac-arff": 这是一个纯 Python ARFF 解析器,其内存和 CPU 效率要低得多。它处理稀疏 ARFF 数据集。

如果为 "auto",则自动选择解析器,对于稀疏 ARFF 数据集选择 "liac-arff",否则选择 "pandas"

1.2 版新增。

1.4 版更改: parser 的默认值从 "liac-arff" 更改为 "auto"

read_csv_kwargsdict, 默认为 None

加载 ARFF 文件数据并使用 pandas 解析器时,传递给 pandas.read_csv 的关键字参数。它允许覆盖一些默认参数。

1.3 版新增。

返回:
dataBunch

类字典对象,具有以下属性。

datanp.array, scipy.sparse.csr_matrix (浮点数), 或 pandas DataFrame

特征矩阵。分类特征被编码为序数。

targetnp.array, pandas Series 或 DataFrame

回归目标或分类标签(如果适用)。如果为数值,数据类型为 float;如果为分类,数据类型为 object。如果 as_frame 为 True,则 target 是一个 pandas 对象。

DESCRstr

数据集的完整描述。

feature_nameslist

数据集列的名称。

target_names: list

目标列的名称。

0.22 版新增。

categoriesdict 或 None

将每个分类特征名称映射到一个值列表,其中编码为 i 的值是列表中的第 i 个。如果 as_frame 为 True,则此项为 None。

detailsdict

来自 OpenML 的更多元数据。

framepandas DataFrame

仅当 as_frame=True 时存在。包含 datatarget 的 DataFrame。

(data, target)tuple (如果 return_X_y 为 True)

注意

实验性

此接口是实验性的,后续版本可能会在没有通知的情况下更改属性(尽管对 datatarget 的更改应仅是微小的)。

‘data’ 中的缺失值表示为 NaN。‘target’ 中的缺失值表示为 NaN(数值目标)或 None(分类目标)。

注意

"pandas""liac-arff" 解析器可能导致输出中数据类型不同。显著差异如下:

  • "liac-arff" 解析器总是将分类特征编码为 str 对象。相反,"pandas" 解析器在读取时推断类型,并且在可能的情况下将数值类别转换为整数。

  • "liac-arff" 解析器使用 float64 对元数据中标记为“REAL”和“NUMERICAL”的数值特征进行编码。"pandas" 解析器则推断这些数值特征是否对应整数,并使用 pandas 的 Integer 扩展数据类型。

  • 特别是,具有整数类别的分类数据集通常使用 "pandas" 解析器加载为 (0, 1, ...),而 "liac-arff" 将强制使用字符串编码的类别标签,例如 "0"`、"1"` 等。

  • "pandas" 解析器不会从字符串列中去除单引号 - 即 '。例如,字符串 'my string'` 将保持不变,而 "liac-arff" 解析器将去除单引号。对于分类列,值中的单引号将被去除。

此外,当使用 as_frame=False 时,"liac-arff" 解析器返回序数编码的数据,其中类别在 Bunch 实例的 categories 属性中提供。相反,"pandas" 返回一个未编码类别的 NumPy 数组。

示例

>>> from sklearn.datasets import fetch_openml
>>> adult = fetch_openml("adult", version=2)  
>>> adult.frame.info()  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   age             48842 non-null  int64
 1   workclass       46043 non-null  category
 2   fnlwgt          48842 non-null  int64
 3   education       48842 non-null  category
 4   education-num   48842 non-null  int64
 5   marital-status  48842 non-null  category
 6   occupation      46033 non-null  category
 7   relationship    48842 non-null  category
 8   race            48842 non-null  category
 9   sex             48842 non-null  category
 10  capital-gain    48842 non-null  int64
 11  capital-loss    48842 non-null  int64
 12  hours-per-week  48842 non-null  int64
 13  native-country  47985 non-null  category
 14  class           48842 non-null  category
dtypes: category(9), int64(6)
memory usage: 2.7 MB