加载糖尿病数据集#

sklearn.datasets.load_diabetes(*, return_X_y=False, as_frame=False, scaled=True)[source]#

加载并返回糖尿病数据集(回归)。

样本总数

442

维度

10

特征

实数,-0.2 < x < 0.2

目标值

整数,25 - 346

注意

每个特征的含义(即 feature_names)可能不明确(特别是对于 ltg),因为原始数据集的文档说明不够明确。我们根据该研究领域的科学文献提供似乎正确的信息。

更多详情请参阅用户指南

参数:
return_X_y布尔值,默认为False

如果为 True,则返回(data, target)而不是 Bunch 对象。有关datatarget对象的更多信息,请参见下文。

0.18 版本新增。

as_frame布尔值,默认为False

如果为 True,则数据是一个 pandas DataFrame,包含具有适当数据类型(数值型)的列。目标是 pandas DataFrame 或 Series,具体取决于目标列的数量。如果return_X_y为 True,则(data,target) 将成为如下所述的 pandas DataFrame 或 Series。

0.23 版本新增。

scaled布尔值,默认为True

如果为 True,则特征变量将以均值居中,并按标准差乘以n_samples的平方根进行缩放。如果为 False,则返回特征变量的原始数据。

1.1 版本新增。

返回:
dataBunch

字典状对象,具有以下属性。

data{ndarray, dataframe} 形状为 (442, 10)

数据矩阵。如果as_frame=Truedata将是 pandas DataFrame。

target: {ndarray, Series} 形状为 (442,)

回归目标。如果as_frame=Truetarget将是 pandas Series。

feature_names: 列表

数据集列的名称。

frame: DataFrame 形状为 (442, 11)

仅当as_frame=True时出现。包含datatarget的 DataFrame。

0.23 版本新增。

DESCR: 字符串

数据集的完整描述。

data_filename: 字符串

数据所在位置的路径。

target_filename: 字符串

目标所在位置的路径。

(data, target)如果return_X_y为 True,则为元组

返回形状为 (n_samples, n_features) 的两个 ndarray 的元组。一个二维数组,每一行代表一个样本,每一列代表给定样本的特征和/或目标。

0.18 版本新增。

示例

>>> from sklearn.datasets import load_diabetes
>>> diabetes = load_diabetes()
>>> diabetes.target[:3]
array([151.,  75., 141.])
>>> diabetes.data.shape
(442, 10)