fetch_species_distributions#

sklearn.datasets.fetch_species_distributions(*, data_home=None, download_if_missing=True, n_retries=3, delay=1.0)[source]#

用于加载 Phillips 等人 (2006) 提供的物种分布数据集。

详情请参阅用户指南

参数:
data_homestr 或 path-like,默认值=None

指定数据集的另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在“~/scikit_learn_data”子文件夹中。

download_if_missing布尔值,默认值=True

如果为 False,则在数据在本地不可用时抛出 OSError,而不是尝试从源站点下载数据。

n_retries整型,默认值=3

遇到 HTTP 错误时的重试次数。

版本 1.5 新增。

delay浮点型,默认值=1.0

重试之间的秒数。

版本 1.5 新增。

返回:
dataBunch

类字典对象,具有以下属性。

coverages数组,形状 = [14, 1592, 1212]

这些表示在地图网格的每个点测量的 14 个特征。网格的经度/纬度值将在下面讨论。缺失数据用值 -9999 表示。

train记录数组,形状 = (1624,)

数据的训练点。每个点有三个字段

  • train[‘species’] 是物种名称

  • train[‘dd long’] 是经度,单位为度

  • train[‘dd lat’] 是纬度,单位为度

test记录数组,形状 = (620,)

数据的测试点。与训练数据格式相同。

Nx, Ny整型

网格中的经度 (x) 和纬度 (y) 数量

x_left_lower_corner, y_left_lower_corner浮点型

左下角的 (x,y) 位置,单位为度

grid_size浮点型

网格点之间的间距,单位为度

备注

此数据集表示物种的地理分布。该数据集由 Phillips 等人 (2006) 提供。

两种物种是

参考文献

示例

>>> from sklearn.datasets import fetch_species_distributions
>>> species = fetch_species_distributions()
>>> species.train[:5]
array([(b'microryzomys_minutus', -64.7   , -17.85  ),
       (b'microryzomys_minutus', -67.8333, -16.3333),
       (b'microryzomys_minutus', -67.8833, -16.3   ),
       (b'microryzomys_minutus', -67.8   , -16.2667),
       (b'microryzomys_minutus', -67.9833, -15.9   )],
      dtype=[('species', 'S22'), ('dd long', '<f4'), ('dd lat', '<f4')])

有关更详细的示例,请参阅物种分布建模