sklearn.datasets#

用于加载常用数据集和人工数据生成器的实用工具。

用户指南. 详情请参阅数据集加载实用工具部分。

加载器#

clear_data_home

删除数据主缓存的所有内容。

dump_svmlight_file

以 svmlight / libsvm 文件格式转储数据集。

fetch_20newsgroups

加载 20 newsgroups 数据集(分类)的文件名和数据。

fetch_20newsgroups_vectorized

加载和向量化 20 newsgroups 数据集(分类)。

fetch_california_housing

加载加州房价数据集(回归)。

fetch_covtype

加载 covertype 数据集(分类)。

fetch_file

如果本地文件夹中不存在,则从网络获取文件。

fetch_kddcup99

加载 kddcup99 数据集(分类)。

fetch_lfw_pairs

加载 Labeled Faces in the Wild (LFW) 对数据集(分类)。

fetch_lfw_people

加载 Labeled Faces in the Wild (LFW) 人物数据集(分类)。

fetch_olivetti_faces

从 AT&T 加载 Olivetti faces 数据集(分类)。

fetch_openml

按名称或数据集 ID 从 openml 获取数据集。

fetch_rcv1

加载 RCV1 多标签数据集(分类)。

fetch_species_distributions

用于加载 Phillips 等人提供的物种分布数据集的加载器。

get_data_home

返回 scikit-learn 数据目录的路径。

load_breast_cancer

加载并返回乳腺癌威斯康星数据集(分类)。

load_diabetes

加载并返回糖尿病数据集(回归)。

load_digits

加载并返回数字数据集(分类)。

load_files

加载子文件夹名称为类别的文本文件。

load_iris

加载并返回鸢尾花数据集(分类)。

load_linnerud

加载并返回体育锻炼 Linnerud 数据集。

load_sample_image

加载单个样本图像的 numpy 数组。

load_sample_images

加载用于图像操作的样本图像。

load_svmlight_file

将 svmlight / libsvm 格式的数据集加载到稀疏 CSR 矩阵中。

load_svmlight_files

从 SVMlight 格式的多个文件加载数据集。

load_wine

加载并返回葡萄酒数据集(分类)。

样本生成器#

make_biclusters

为双聚类生成常量块对角结构数组。

make_blobs

生成用于聚类的各向同性高斯斑点。

make_checkerboard

为双聚类生成具有块棋盘结构的数组。

make_circles

在 2d 中创建一个包含较小圆圈的大圆圈。

make_classification

生成一个随机的 n 类分类问题。

make_friedman1

生成“Friedman #1”回归问题。

make_friedman2

生成“Friedman #2”回归问题。

make_friedman3

生成“Friedman #3”回归问题。

make_gaussian_quantiles

生成各向同性高斯,并按分位数标记样本。

make_hastie_10_2

生成 Hastie et al. 2009, Example 10.2 中使用的二元分类数据。

make_low_rank_matrix

生成一个带有钟形奇异值的低秩矩阵。

make_moons

创建两个交错的半圆。

make_multilabel_classification

生成一个随机的多标签分类问题。

make_regression

生成一个随机回归问题。

make_s_curve

生成 S 曲线数据集。

make_sparse_coded_signal

生成作为字典元素的稀疏组合的信号。

make_sparse_spd_matrix

生成稀疏对称正定矩阵。

make_sparse_uncorrelated

生成具有稀疏不相关设计的随机回归问题。

make_spd_matrix

生成一个随机对称正定矩阵。

make_swiss_roll

生成瑞士卷数据集。