fetch_lfw_people#

sklearn.datasets.fetch_lfw_people(*, data_home=None, funneled=True, resize=0.5, min_faces_per_person=0, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, return_X_y=False, n_retries=3, delay=1.0)[source]#

加载 Labeled Faces in the Wild (LFW) 人物数据集(分类)。

Download it if necessary.

类别数

5749

样本总数

13233

维度

5828

特征值范围

实数,介于 0 和 255 之间

有关此数据集的使用示例,请参阅 使用特征脸和 SVM 的人脸识别示例

用户指南 中了解更多信息。

参数:
data_homestr or path-like, default=None

为数据集指定另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在 ‘~/scikit_learn_data’ 子文件夹中。

funneledbool, default=True

下载并使用数据集的对齐(funneled)变体。

resizefloat 或 None, default=0.5

用于调整每张人脸图片大小的比例。如果为 None,则不进行调整。

min_faces_per_personint, default=None

提取的数据集将仅保留至少拥有 min_faces_per_person 张不同图片的个人。

colorbool, default=False

保留 3 个 RGB 通道,而不是将其平均为单个灰度通道。如果 color 为 True,则数据形状比 color = False 时多一个维度。

slice_切片元组, default=(slice(70, 195), slice(78, 172))

提供一个自定义的 2D 切片(高度,宽度)以提取 jpeg 文件的“感兴趣”区域,并避免使用背景中的统计相关性。

download_if_missingbool, default=True

If False, raise an OSError if the data is not locally available instead of trying to download the data from the source site.

return_X_ybool, default=False

如果为 True,则返回 (dataset.data, dataset.target) 而不是 Bunch 对象。有关 dataset.datadataset.target 对象的更多信息,请参阅下文。

0.20 版本新增。

n_retriesint, default=3

Number of retries when HTTP errors are encountered.

1.5 版本新增。

delayfloat, default=1.0

Number of seconds between retries.

1.5 版本新增。

返回:
datasetBunch

Dictionary-like object, with the following attributes.

data形状为 (13233, 2914) 的 numpy 数组

每一行对应一张展平(ravelled)的人脸图像,原始大小为 62 x 47 像素。更改 slice_ 或 resize 参数将改变输出的形状。

images形状为 (13233, 62, 47) 的 numpy 数组

每一行都是一张对应于数据集中 5749 人之一的人脸图像。更改 slice_ 或 resize 参数将改变输出的形状。

target形状为 (13233,) 的 numpy 数组

与每张人脸图像关联的标签。这些标签范围从 0 到 5748,对应于个人 ID。

target_names形状为 (5749,) 的 numpy 数组

数据集中所有人的姓名。数组中的位置对应于 target 数组中的个人 ID。

DESCRstr

Labeled Faces in the Wild (LFW) 数据集的描述。

(data, target)tuple if return_X_y is True

包含两个 ndarray 的元组。第一个包含一个形状为 (n_samples, n_features) 的二维数组,其中每一行代表一个样本,每一列代表特征。第二个 ndarray 的形状为 (n_samples,),包含目标样本。

0.20 版本新增。

示例

>>> from sklearn.datasets import fetch_lfw_people
>>> lfw_people = fetch_lfw_people()
>>> lfw_people.data.shape
(13233, 2914)
>>> lfw_people.target.shape
(13233,)
>>> for name in lfw_people.target_names[:5]:
...    print(name)
AJ Cook
AJ Lamas
Aaron Eckhart
Aaron Guiel
Aaron Patterson