7.4. 加载其他数据集#

7.4.1. 示例图像#

Scikit-learn 还嵌入了一些由作者在知识共享许可下发布的示例 JPEG 图像。这些图像可用于测试二维数据的算法和管道。

load_sample_images()

加载用于图像处理的示例图像。

load_sample_image(image_name)

加载单个示例图像的 numpy 数组。

../_images/loading_other_datasets-1.png

警告

图像的默认编码基于uint8数据类型以节省内存。通常,如果首先将输入转换为浮点表示,则机器学习算法的效果最佳。此外,如果您计划使用matplotlib.pyplpt.imshow,请不要忘记按以下示例所示缩放至 0-1 范围。

7.4.2. svmlight/libsvm 格式的数据集#

scikit-learn 包含用于加载 svmlight/libsvm 格式数据集的实用程序函数。在此格式中,每一行采用<label> <feature-id>:<feature-value> <feature-id>:<feature-value> ...的形式。此格式特别适合稀疏数据集。在此模块中,scipy 稀疏 CSR 矩阵用于X,numpy 数组用于y

您可以像这样加载数据集:

>>> from sklearn.datasets import load_svmlight_file
>>> X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt")
...                                                         

您也可以一次加载两个(或更多)数据集:

>>> X_train, y_train, X_test, y_test = load_svmlight_files(
...     ("/path/to/train_dataset.txt", "/path/to/test_dataset.txt"))
...                                                         

在这种情况下,X_trainX_test保证具有相同数量的特征。实现相同结果的另一种方法是固定特征数量:

>>> X_test, y_test = load_svmlight_file(
...     "/path/to/test_dataset.txt", n_features=X_train.shape[1])
...                                                         

相关链接

7.4.3. 从 openml.org 仓库下载数据集#

openml.org 是一个用于机器学习数据和实验的公共仓库,允许所有人上传开放数据集。

sklearn.datasets包能够使用函数sklearn.datasets.fetch_openml从仓库下载数据集。

例如,要下载小鼠大脑基因表达的数据集:

>>> from sklearn.datasets import fetch_openml
>>> mice = fetch_openml(name='miceprotein', version=4)

要完全指定数据集,您需要提供名称和版本,尽管版本是可选的,请参见下面的数据集版本。该数据集总共包含属于 8 个不同类的 1080 个示例。

>>> mice.data.shape
(1080, 77)
>>> mice.target.shape
(1080,)
>>> np.unique(mice.target)
array(['c-CS-m', 'c-CS-s', 'c-SC-m', 'c-SC-s', 't-CS-m', 't-CS-s', 't-SC-m', 't-SC-s'], dtype=object)

您可以通过查看DESCRdetails属性来获取有关数据集的更多信息。

>>> print(mice.DESCR) 
**Author**: Clara Higuera, Katheleen J. Gardiner, Krzysztof J. Cios
**Source**: [UCI](https://archive.ics.uci.edu/ml/datasets/Mice+Protein+Expression) - 2015
**Please cite**: Higuera C, Gardiner KJ, Cios KJ (2015) Self-Organizing
Feature Maps Identify Proteins Critical to Learning in a Mouse Model of Down
Syndrome. PLoS ONE 10(6): e0129126...

>>> mice.details 
{'id': '40966', 'name': 'MiceProtein', 'version': '4', 'format': 'ARFF',
'upload_date': '2017-11-08T16:00:15', 'licence': 'Public',
'url': 'https://www.openml.org/data/v1/download/17928620/MiceProtein.arff',
'file_id': '17928620', 'default_target_attribute': 'class',
'row_id_attribute': 'MouseID',
'ignore_attribute': ['Genotype', 'Treatment', 'Behavior'],
'tag': ['OpenML-CC18', 'study_135', 'study_98', 'study_99'],
'visibility': 'public', 'status': 'active',
'md5_checksum': '3c479a6885bfa0438971388283a1ce32'}

DESCR包含数据的自由文本描述,而details包含 openml 存储的元数据字典,例如数据集 ID。有关更多详细信息,请参见OpenML 文档。小鼠蛋白质数据集的data_id是 40966,您可以使用它(或名称)在 openml 网站上获取有关数据集的更多信息。

>>> mice.url
'https://www.openml.org/d/40966'

data_id还可以唯一标识来自 OpenML 的数据集。

>>> mice = fetch_openml(data_id=40966)
>>> mice.details 
{'id': '4550', 'name': 'MiceProtein', 'version': '1', 'format': 'ARFF',
'creator': ...,
'upload_date': '2016-02-17T14:32:49', 'licence': 'Public', 'url':
'https://www.openml.org/data/v1/download/1804243/MiceProtein.ARFF', 'file_id':
'1804243', 'default_target_attribute': 'class', 'citation': 'Higuera C,
Gardiner KJ, Cios KJ (2015) Self-Organizing Feature Maps Identify Proteins
Critical to Learning in a Mouse Model of Down Syndrome. PLoS ONE 10(6):
e0129126. [Web Link] journal.pone.0129126', 'tag': ['OpenML100', 'study_14',
'study_34'], 'visibility': 'public', 'status': 'active', 'md5_checksum':
'3c479a6885bfa0438971388283a1ce32'}

7.4.3.1. 数据集版本#

数据集由其data_id唯一指定,但不一定由其名称唯一指定。同一个名称下可能存在多个不同版本的“数据集”,这些数据集的内容可能完全不同。如果某个特定版本的数据集被发现包含重大问题,则可能会被停用。使用名称来指定数据集将返回仍然处于活动状态的该数据集的第一个版本。这意味着,如果较早的版本失效,fetch_openml(name="miceprotein")在不同时间可能会产生不同的结果。您可以看到,我们上面获取的data_id为40966的数据集是“miceprotein”数据集的第一个版本。

>>> mice.details['version']  
'1'

事实上,这个数据集只有一个版本。而另一方面,iris数据集有多个版本。

>>> iris = fetch_openml(name="iris")
>>> iris.details['version']  
'1'
>>> iris.details['id']  
'61'

>>> iris_61 = fetch_openml(data_id=61)
>>> iris_61.details['version']
'1'
>>> iris_61.details['id']
'61'

>>> iris_969 = fetch_openml(data_id=969)
>>> iris_969.details['version']
'3'
>>> iris_969.details['id']
'969'

用名称“iris”指定数据集将返回最低版本,版本1,其data_id为61。为了确保您始终获得这个确切的数据集,最安全的方法是通过数据集data_id来指定它。另一个数据集,data_id为969,是版本3(版本2已失效),包含数据的二值化版本。

>>> np.unique(iris_969.target)
array(['N', 'P'], dtype=object)

您也可以同时指定名称和版本,这也唯一标识了数据集。

>>> iris_version_3 = fetch_openml(name="iris", version=3)
>>> iris_version_3.details['version']
'3'
>>> iris_version_3.details['id']
'969'

参考文献

7.4.3.2. ARFF 解析器#

从1.2版本开始,scikit-learn提供了一个新的关键字参数parser,它提供了多个选项来解析OpenML提供的ARFF文件。传统解析器(即parser="liac-arff")基于LIAC-ARFF项目。然而,这个解析器速度慢,并且消耗的内存比所需的多。一个基于pandas的新解析器(即parser="pandas")更快且更节省内存。但是,此解析器不支持稀疏数据。因此,我们建议使用parser="auto",它将为请求的数据集使用最佳的可用解析器。

"pandas""liac-arff"解析器可能会导致输出中的数据类型不同。显著的区别如下:

  • "liac-arff"解析器始终将分类特征编码为str对象。相反,"pandas"解析器在读取时推断类型,并且只要可能,数值类别将被转换为整数。

  • "liac-arff"解析器使用float64来编码元数据中标记为“REAL”和“NUMERICAL”的数值特征。"pandas"解析器则推断这些数值特征是否对应于整数,并使用pandas的整数扩展dtype。

  • 特别是,使用整数类别进行分类的数据集通常使用"pandas"解析器加载为(0, 1, ...),而"liac-arff"将强制使用字符串编码的类别标签,例如"0""1"等等。

  • "pandas"解析器不会去除字符串列中的单引号 - 即' - 。例如,字符串'my string'将保持不变,而"liac-arff"解析器将去除单引号。对于分类列,单引号将从值中去除。

此外,当使用as_frame=False时,"liac-arff"解析器返回按序编码的数据,其中类别在Bunch实例的categories属性中提供。相反,"pandas"返回一个NumPy数组,其中包含类别。然后,用户需要设计一个特征工程管道,其中通常包含OneHotEncoderOrdinalEncoder的实例(通常包装在ColumnTransformer中)来显式地预处理分类列。例如,参见:混合类型列转换器

7.4.4. 从外部数据集加载#

scikit-learn可以处理任何存储为numpy数组或scipy稀疏矩阵的数值数据。其他可以转换为数值数组的类型,例如pandas DataFrame,也是可以接受的。

以下是一些将标准列式数据加载到scikit-learn可用的格式中的推荐方法:

  • pandas.io提供了从常见格式(包括CSV、Excel、JSON和SQL)读取数据的工具。DataFrame也可以从元组或字典列表构建。Pandas可以平滑地处理异构数据,并提供将数据转换为适合scikit-learn的数值数组的工具。

  • scipy.io专门处理科学计算环境中常用的二进制格式,例如.mat和.arff。

  • numpy/routines.io用于将标准列式数据加载到numpy数组中。

  • scikit-learn的load_svmlight_file用于svmlight或libSVM稀疏格式。

  • scikit-learn的load_files用于文本文件目录,其中每个目录的名称是每个类别的名称,每个目录内的每个文件对应于该类别的一个样本。

对于一些杂项数据,如图像、视频和音频,您可能需要参考:

以字符串形式存储的分类(或名义)特征(在 pandas DataFrame 中很常见)需要使用OneHotEncoderOrdinalEncoder 或类似方法转换为数值特征。参见 数据预处理

注意:如果您自己管理数值数据,建议使用优化的文件格式,例如 HDF5,以减少数据加载时间。H5Py、PyTables 和 pandas 等各种库都提供了用于读取和写入此格式数据的 Python 接口。