获取LFW配对#
- sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[source]#
加载野外标记人脸 (LFW) 配对数据集(分类)。
必要时下载。
类别
2
样本总数
13233
维数
5828
特征
实数,介于 0 和 255 之间
在官方的 README.txt 中,此任务被描述为“受限”任务。由于我不确定如何正确实现“不受限”变体,因此目前将其设置为不支持。
原始图像为 250 x 250 像素,但默认的切片和调整大小参数将其缩小为 62 x 47。
在 用户指南 中了解更多信息。
- 参数:
- subset{‘train’, ‘test’, ‘10_folds’}, default=’train’
选择要加载的数据集:'train' 用于开发训练集,'test' 用于开发测试集,'10_folds' 用于官方评估集,该评估集旨在与 10 折交叉验证一起使用。
- data_homestr 或 path-like,default=None
指定数据集的另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在 ‘~/scikit_learn_data’ 子文件夹中。
- funneledbool, default=True
下载并使用数据集的 funneled 变体。
- resizefloat, default=0.5
用于调整每张人脸图片大小的比例。
- colorbool, default=False
保留 3 个 RGB 通道,而不是将其平均为单个灰度通道。如果 color 为 True,则数据的形状比 color = False 的形状多一个维度。
- slice_切片元组,default=(slice(70, 195), slice(78, 172))
提供自定义的 2D 切片(高度、宽度)以提取 jpeg 文件的“感兴趣”部分,并避免使用来自背景的统计相关性。
- download_if_missingbool, default=True
如果为 False,则如果数据在本地不可用,则引发 OSError,而不是尝试从源站点下载数据。
- n_retriesint, default=3
遇到 HTTP 错误时的重试次数。
1.5 版中新增。
- delayfloat, default=1.0
两次重试之间的秒数。
1.5 版中新增。
- 返回:
- data
Bunch
类似字典的对象,具有以下属性。
- data形状为 (2200, 5828) 的 ndarray。形状取决于
subset
。 每一行对应于 2 幅原始大小为 62 x 47 像素的展开人脸图像。更改
slice_
、resize
或subset
参数将更改输出的形状。- pairs形状为 (2200, 2, 62, 47) 的 ndarray。形状取决于
subset
每一行包含 2 幅人脸图像,对应于来自包含 5749 个人的数据集中的同一人或不同的人。更改
slice_
、resize
或subset
参数将更改输出的形状。- target形状为 (2200,) 的 numpy 数组。形状取决于
subset
。 与每对图像相关的标签。两个标签值是不同的人还是同一人。
- target_names形状为 (2,) 的 numpy 数组
解释目标数组的目标值。0 对应于“不同的人”,1 对应于“同一人”。
- DESCRstr
野外标记人脸 (LFW) 数据集的描述。
- data形状为 (2200, 5828) 的 ndarray。形状取决于
- data
示例
>>> from sklearn.datasets import fetch_lfw_pairs >>> lfw_pairs_train = fetch_lfw_pairs(subset='train') >>> list(lfw_pairs_train.target_names) [np.str_('Different persons'), np.str_('Same person')] >>> lfw_pairs_train.pairs.shape (2200, 2, 62, 47) >>> lfw_pairs_train.data.shape (2200, 5828) >>> lfw_pairs_train.target.shape (2200,)