加载鸢尾花数据集 (load_iris)#
- sklearn.datasets.load_iris(*, return_X_y=False, as_frame=False)[source]#
加载并返回鸢尾花数据集(分类)。
鸢尾花数据集是一个经典且非常简单的多类分类数据集。
类别
3
每类样本数
50
样本总数
150
维度
4
特征
实数,正数
更多信息请阅读 用户指南。
0.20版本变化: 根据费雪的论文修正了两个错误的数据点。新版本与R中的版本相同,但与UCI机器学习资源库中的版本不同。
- 参数:
- return_X_y布尔值,默认为False
如果为True,则返回
(data, target)
而不是Bunch对象。有关data
和target
对象的更多信息,请参见下文。0.18版本新增。
- as_frame布尔值,默认为False
如果为True,则数据为包含具有适当数据类型的(数值型)列的pandas DataFrame。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果
return_X_y
为True,则(data
,target
)将如下所述为pandas DataFrames或Series。0.23版本新增。
- 返回:
- data
Bunch
类似字典的对象,具有以下属性。
- data形状为(150, 4)的{ndarray, dataframe}
数据矩阵。如果
as_frame=True
,data
将是pandas DataFrame。- target: 形状为(150,)的{ndarray, Series}
分类目标。如果
as_frame=True
,target
将是pandas Series。- feature_names: 列表
数据集列的名称。
- target_names: 列表
目标类别的名称。
- frame: 形状为(150, 5)的DataFrame
仅当
as_frame=True
时存在。包含data
和target
的DataFrame。0.23版本新增。
- DESCR: 字符串
数据集的完整描述。
- filename: 字符串
数据位置的路径。
0.20版本新增。
- (data, target)如果
return_X_y
为True,则为元组 两个ndarray的元组。第一个包含形状为(n_samples, n_features)的二维数组,其中每一行代表一个样本,每一列代表特征。第二个形状为(n_samples,)的ndarray包含目标样本。
0.18版本新增。
- data
示例
假设您对样本10、25和50感兴趣,并且想知道它们的类名。
>>> from sklearn.datasets import load_iris >>> data = load_iris() >>> data.target[[10, 25, 50]] array([0, 0, 1]) >>> list(data.target_names) [np.str_('setosa'), np.str_('versicolor'), np.str_('virginica')]
参见 鸢尾花数据集的主成分分析 (PCA),了解如何使用鸢尾花数据集的更详细示例。