fetch_lfw_pairs#

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[源代码]#

加载野外标记人脸 (LFW) 对数据集(分类)。

如有必要则下载。

类别

2

样本总数

13233

维度

5828

特征

实数,介于 0 和 255 之间

原始论文中,“对”版本对应于“受限任务”,其中实验者不应使用人名来推断训练集中未明确给出的两张人脸图像的等价性或非等价性。

原始图像为 250 x 250 像素,但默认的切片和调整大小参数将其缩减为 62 x 47。

更多信息请参阅用户指南

参数:
subset{'train', 'test', '10_folds'},默认为 'train'

选择要加载的数据集:“train”用于开发训练集,“test”用于开发测试集,“10_folds”用于旨在与 10 折交叉验证一起使用的官方评估集。

data_homestr 或路径类对象,默认为 None

为数据集指定另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在“~/scikit_learn_data”子文件夹中。

funneled布尔值,默认为 True

下载并使用数据集的“funneled”变体。

resize浮点数,默认为 0.5

用于调整每张人脸图片大小的比例。

color布尔值,默认为 False

保留 3 个 RGB 通道,而不是将其平均为一个灰度通道。如果 color 为 True,则数据形状比 color 为 False 时的形状多一个维度。

slice_切片元组,默认为 (slice(70, 195), slice(78, 172))

提供自定义的 2D 切片(高度,宽度)以提取 JPEG 文件中“感兴趣”的部分,并避免使用来自背景的统计相关性。

download_if_missing布尔值,默认为 True

如果为 False,则如果数据在本地不可用,则引发 OSError,而不是尝试从源站点下载数据。

n_retries整型,默认为 3

遇到 HTTP 错误时的重试次数。

1.5 版本新增。

delay浮点数,默认为 1.0

每次重试之间的秒数。

1.5 版本新增。

返回:
dataBunch

字典类对象,具有以下属性。

data形状为 (2200, 5828) 的 ndarray。形状取决于 subset

每行对应于 2 张原始尺寸为 62 x 47 像素的展开人脸图像。更改 slice_resizesubset 参数将改变输出的形状。

pairs形状为 (2200, 2, 62, 47) 的 ndarray。形状取决于 subset

每行包含 2 张人脸图像,它们对应于数据集中 5749 人中的同一或不同人。更改 slice_resizesubset 参数将改变输出的形状。

target形状为 (2200,) 的 numpy 数组。形状取决于 subset

与每对图像关联的标签。两个标签值分别为不同的人或同一个人。

target_names形状为 (2,) 的 numpy 数组

解释目标数组中的目标值。0 对应“不同的人”,1 对应“同一个人”。

DESCRstr

野外标记人脸 (LFW) 数据集的描述。

示例

>>> from sklearn.datasets import fetch_lfw_pairs
>>> lfw_pairs_train = fetch_lfw_pairs(subset='train')
>>> list(lfw_pairs_train.target_names)
[np.str_('Different persons'), np.str_('Same person')]
>>> lfw_pairs_train.pairs.shape
(2200, 2, 62, 47)
>>> lfw_pairs_train.data.shape
(2200, 5828)
>>> lfw_pairs_train.target.shape
(2200,)