fetch_openml#

通过名称或数据集 ID 从 OpenML 获取数据集。

数据集通过整数 ID 或名称与版本的组合（例如，可能存在多个版本的“iris”数据集）进行唯一标识。请提供名称或 data_id（不能同时提供两者）。如果提供了名称，也可以提供版本。

在用户指南中阅读更多内容。

0.20 版新增。

注意

实验性

此 API 处于实验阶段（特别是返回值结构），未来的版本可能会在没有通知或警告的情况下进行小的向后不兼容更改。

参数:

namestr, 默认为 None: 数据集的字符串标识符。请注意，OpenML 可以有多个同名数据集。
versionint 或 ‘active’, 默认为 ‘active’: 数据集版本。只有在提供了 name 时才能提供。如果为 ‘active’，则使用仍在活动中的最旧版本。由于一个数据集可能存在多个活动版本，并且这些版本可能彼此之间存在根本差异，因此强烈建议设置确切的版本。
data_idint, 默认为 None: 数据集的 OpenML ID。这是检索数据集最具体的方式。如果未提供 data_id，则使用 name（和可选的 version）来获取数据集。
data_homestr 或 path-like, 默认为 None: 为数据集指定另一个下载和缓存文件夹。默认情况下，所有 scikit-learn 数据都存储在“~/scikit_learn_data”子文件夹中。
target_columnstr, list 或 None, 默认为 ‘default-target’: 指定数据中用作目标列的名称。如果为 ‘default-target’，则使用服务器上存储的标准目标列。如果为 None，则所有列都作为数据返回，且目标为 None。如果是列表（字符串），则所有具有这些名称的列都作为多目标返回（注意：并非所有 scikit-learn 分类器都能处理所有类型的多输出组合）。
cachebool, 默认为 True: 是否将下载的数据集缓存到 data_home 中。
return_X_ybool, 默认为 False: 如果为 True，则返回 (data, target)` 而不是 Bunch 对象。有关 data 和 target 对象的更多信息，请参阅下文。
as_framebool 或 ‘auto’, 默认为 ‘auto’: 如果为 True，则数据是一个 pandas DataFrame，包含具有适当数据类型（数值、字符串或分类）的列。目标是一个 pandas DataFrame 或 Series，具体取决于 target_columns 的数量。Bunch 将包含一个 frame 属性，其中包含目标和数据。如果 return_X_y 为 True，则 (data, target)` 将是如上所述的 pandas DataFrame 或 Series。
如果 as_frame 为 ‘auto’，则数据和目标将被转换为 DataFrame 或 Series，如同 as_frame 设置为 True 一样，除非数据集以稀疏格式存储。如果 as_frame 为 False，则数据和目标将是 NumPy 数组，并且当 parser="liac-arff" 时，data 将只包含数值，其中类别在 Bunch 实例的 categories 属性中提供。当 parser="pandas" 时，不进行序数编码。 0.24 版更改: 在 0.24 版中，as_frame 的默认值从 False 更改为 'auto'。
n_retriesint, 默认为 3: 遇到 HTTP 错误或网络超时时的重试次数。状态码为 412 的错误不会重试，因为它们代表 OpenML 通用错误。
delayfloat, 默认为 1.0: 每次重试之间的秒数。
parser{“auto”, “pandas”, “liac-arff”}, 默认为 “auto”: 用于加载 ARFF 文件的解析器。实现了两种解析器：

"pandas": 这是最有效的解析器。但是，它需要安装 pandas 并且只能打开密集数据集。

"liac-arff": 这是一个纯 Python ARFF 解析器，其内存和 CPU 效率要低得多。它处理稀疏 ARFF 数据集。

如果为 "auto"，则自动选择解析器，对于稀疏 ARFF 数据集选择 "liac-arff"，否则选择 "pandas"。

1.2 版新增。

1.4 版更改: parser 的默认值从 "liac-arff" 更改为 "auto"。
read_csv_kwargsdict, 默认为 None: 加载 ARFF 文件数据并使用 pandas 解析器时，传递给 pandas.read_csv 的关键字参数。它允许覆盖一些默认参数。

1.3 版新增。


返回:

dataBunch
类字典对象，具有以下属性。

datanp.array, scipy.sparse.csr_matrix (浮点数), 或 pandas DataFrame
特征矩阵。分类特征被编码为序数。

targetnp.array, pandas Series 或 DataFrame
回归目标或分类标签（如果适用）。如果为数值，数据类型为 float；如果为分类，数据类型为 object。如果 as_frame 为 True，则 target 是一个 pandas 对象。

DESCRstr
数据集的完整描述。

feature_nameslist
数据集列的名称。

target_names: list
目标列的名称。



0.22 版新增。


categoriesdict 或 None
将每个分类特征名称映射到一个值列表，其中编码为 i 的值是列表中的第 i 个。如果 as_frame 为 True，则此项为 None。

detailsdict
来自 OpenML 的更多元数据。

framepandas DataFrame
仅当 as_frame=True 时存在。包含 data 和 target 的 DataFrame。



(data, target)tuple (如果 return_X_y 为 True)

注意
实验性
此接口是实验性的，后续版本可能会在没有通知的情况下更改属性（尽管对 data 和 target 的更改应仅是微小的）。

‘data’ 中的缺失值表示为 NaN。‘target’ 中的缺失值表示为 NaN（数值目标）或 None（分类目标）。


注意
"pandas" 和 "liac-arff" 解析器可能导致输出中数据类型不同。显著差异如下：

"liac-arff" 解析器总是将分类特征编码为 str 对象。相反，"pandas" 解析器在读取时推断类型，并且在可能的情况下将数值类别转换为整数。
"liac-arff" 解析器使用 float64 对元数据中标记为“REAL”和“NUMERICAL”的数值特征进行编码。"pandas" 解析器则推断这些数值特征是否对应整数，并使用 pandas 的 Integer 扩展数据类型。
特别是，具有整数类别的分类数据集通常使用 "pandas" 解析器加载为 (0, 1, ...)，而 "liac-arff" 将强制使用字符串编码的类别标签，例如 "0"`、"1"` 等。

"pandas" 解析器不会从字符串列中去除单引号 - 即 '。例如，字符串 'my string'` 将保持不变，而 "liac-arff" 解析器将去除单引号。对于分类列，值中的单引号将被去除。


此外，当使用 as_frame=False 时，"liac-arff" 解析器返回序数编码的数据，其中类别在 Bunch 实例的 categories 属性中提供。相反，"pandas" 返回一个未编码类别的 NumPy 数组。
示例
>>> from sklearn.datasets import fetch_openml
>>> adult = fetch_openml("adult", version=2)  
>>> adult.frame.info()  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   age             48842 non-null  int64
 1   workclass       46043 non-null  category
 2   fnlwgt          48842 non-null  int64
 3   education       48842 non-null  category
 4   education-num   48842 non-null  int64
 5   marital-status  48842 non-null  category
 6   occupation      46033 non-null  category
 7   relationship    48842 non-null  category
 8   race            48842 non-null  category
 9   sex             48842 non-null  category
 10  capital-gain    48842 non-null  int64
 11  capital-loss    48842 non-null  int64
 12  hours-per-week  48842 non-null  int64
 13  native-country  47985 non-null  category
 14  class           48842 non-null  category
dtypes: category(9), int64(6)
memory usage: 2.7 MB




示例图库#

时间相关特征工程
  时间相关特征工程

使用核 PCA 进行图像去噪
  使用核 PCA 进行图像去噪

混合类型的列转换器
  混合类型的列转换器

回归模型中目标转换的影响
  回归模型中目标转换的影响

梯度提升中的分类特征支持
  梯度提升中的分类特征支持

直方图梯度提升树中的特征
  直方图梯度提升树中的特征

使用堆叠组合预测器
  使用堆叠组合预测器

使用高斯过程回归（GPR）预测莫纳罗亚数据集上的二氧化碳水平
  使用高斯过程回归（GPR）预测莫纳罗亚数据集上的二氧化碳水平

线性模型系数解释中的常见陷阱
  线性模型系数解释中的常见陷阱

部分依赖和个体条件期望图
  部分依赖和个体条件期望图

置换重要性与随机森林特征重要性（MDI）
  置换重要性与随机森林特征重要性（MDI）

泊松回归和非正态损失
  泊松回归和非正态损失

随机梯度下降的早期停止
  随机梯度下降的早期停止

使用多项逻辑回归 + L1 进行 MNIST 分类
  使用多项逻辑回归 + L1 进行 MNIST 分类

保险索赔的 Tweedie 回归
  保险索赔的 Tweedie 回归

使用显示对象进行可视化
  使用显示对象进行可视化

离群点检测评估器的评估
  离群点检测评估器的评估

介绍 set_output API
  介绍 set_output API

成本敏感学习的决策阈值后调优
  成本敏感学习的决策阈值后调优

决策函数截止点的后验调优
  决策函数截止点的后验调优

多类别训练元估计器概述
  多类别训练元估计器概述

使用分类器链进行多标签分类
  使用分类器链进行多标签分类

TSNE 中的近似最近邻
  TSNE 中的近似最近邻

MNIST 上 MLP 权重的可视化
  MNIST 上 MLP 权重的可视化

目标编码器与其他编码器的比较
  目标编码器与其他编码器的比较

scikit-learn 0.22 发布亮点
  scikit-learn 0.22 发布亮点

scikit-learn 1.1 发布亮点
  scikit-learn 1.1 发布亮点

scikit-learn 1.2 发布亮点
  scikit-learn 1.2 发布亮点

scikit-learn 1.4 发布亮点
  scikit-learn 1.4 发布亮点


              
              
              
                
                  
  
    

       上一页
 fetch_olivetti_faces
 
    下一页
 fetch_rcv1


            
            
              
                
                


  

     本页内容
  
    

fetch_openml
示例图库




  

  
  
    本页
    
      显示源文件