加载鸢尾花数据集 (load_iris)#

sklearn.datasets.load_iris(*, return_X_y=False, as_frame=False)[source]#

加载并返回鸢尾花数据集（分类）。

鸢尾花数据集是一个经典且非常简单的多类分类数据集。

类别	3
每类样本数	50
样本总数	150
维度	4
特征	实数，正数

更多信息请阅读用户指南。

0.20版本变化：根据费雪的论文修正了两个错误的数据点。新版本与R中的版本相同，但与UCI机器学习资源库中的版本不同。

参数：

return_X_y布尔值，默认为False: 如果为True，则返回(data, target)而不是Bunch对象。有关data和target对象的更多信息，请参见下文。

0.18版本新增。
as_frame布尔值，默认为False: 如果为True，则数据为包含具有适当数据类型的（数值型）列的pandas DataFrame。目标是pandas DataFrame或Series，具体取决于目标列的数量。如果return_X_y为True，则(data, target)将如下所述为pandas DataFrames或Series。

0.23版本新增。

返回：

dataBunch

类似字典的对象，具有以下属性。

data形状为(150, 4)的{ndarray, dataframe}: 数据矩阵。如果as_frame=True，data将是pandas DataFrame。
target: 形状为(150,)的{ndarray, Series}: 分类目标。如果as_frame=True，target将是pandas Series。
feature_names: 列表: 数据集列的名称。
target_names: 列表: 目标类别的名称。
frame: 形状为(150, 5)的DataFrame: 仅当as_frame=True时存在。包含data和target的DataFrame。

0.23版本新增。
DESCR: 字符串: 数据集的完整描述。
filename: 字符串: 数据位置的路径。

0.20版本新增。

(data, target)如果return_X_y为True，则为元组

两个ndarray的元组。第一个包含形状为(n_samples, n_features)的二维数组，其中每一行代表一个样本，每一列代表特征。第二个形状为(n_samples,)的ndarray包含目标样本。

0.18版本新增。

示例

假设您对样本10、25和50感兴趣，并且想知道它们的类名。

>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.target[[10, 25, 50]]
array([0, 0, 1])
>>> list(data.target_names)
[np.str_('setosa'), np.str_('versicolor'), np.str_('virginica')]