加载鸢尾花数据集 (load_iris)#

sklearn.datasets.load_iris(*, return_X_y=False, as_frame=False)[source]#

加载并返回鸢尾花数据集(分类)。

鸢尾花数据集是一个经典且非常简单的多类分类数据集。

类别

3

每类样本数

50

样本总数

150

维度

4

特征

实数,正数

更多信息请阅读 用户指南

0.20版本变化: 根据费雪的论文修正了两个错误的数据点。新版本与R中的版本相同,但与UCI机器学习资源库中的版本不同。

参数:
return_X_y布尔值,默认为False

如果为True,则返回(data, target)而不是Bunch对象。有关datatarget对象的更多信息,请参见下文。

0.18版本新增。

as_frame布尔值,默认为False

如果为True,则数据为包含具有适当数据类型的(数值型)列的pandas DataFrame。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果return_X_y为True,则(data, target)将如下所述为pandas DataFrames或Series。

0.23版本新增。

返回:
dataBunch

类似字典的对象,具有以下属性。

data形状为(150, 4)的{ndarray, dataframe}

数据矩阵。如果as_frame=Truedata将是pandas DataFrame。

target: 形状为(150,)的{ndarray, Series}

分类目标。如果as_frame=Truetarget将是pandas Series。

feature_names: 列表

数据集列的名称。

target_names: 列表

目标类别的名称。

frame: 形状为(150, 5)的DataFrame

仅当as_frame=True时存在。包含datatarget的DataFrame。

0.23版本新增。

DESCR: 字符串

数据集的完整描述。

filename: 字符串

数据位置的路径。

0.20版本新增。

(data, target)如果return_X_y为True,则为元组

两个ndarray的元组。第一个包含形状为(n_samples, n_features)的二维数组,其中每一行代表一个样本,每一列代表特征。第二个形状为(n_samples,)的ndarray包含目标样本。

0.18版本新增。

示例

假设您对样本10、25和50感兴趣,并且想知道它们的类名。

>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.target[[10, 25, 50]]
array([0, 0, 1])
>>> list(data.target_names)
[np.str_('setosa'), np.str_('versicolor'), np.str_('virginica')]

参见 鸢尾花数据集的主成分分析 (PCA),了解如何使用鸢尾花数据集的更详细示例。