load_diabetes#

sklearn.datasets.load_diabetes(*, return_X_y=False, as_frame=False, scaled=True)[source]#

加载并返回糖尿病数据集(回归)。

样本总数

442

维度

10

特征

实数, -.2 < x < .2

目标

整数 25 - 346

注意

每个特征的含义(即 feature_names)可能不明确(特别是对于 ltg),因为原始数据集的文档不明确。我们提供了与该研究领域的科学文献似乎一致的信息。

用户指南中阅读更多内容。

参数:
return_X_ybool, 默认值=False

如果为 True,则返回 (data, target) 而不是 Bunch 对象。有关 datatarget 对象的更多信息,请参见下文。

在 0.18 版本中新增。

as_framebool, 默认值=False

如果为 True,数据将是一个 pandas DataFrame,包含具有适当 dtypes(数值)的列。目标将是一个 pandas DataFrame 或 Series,具体取决于目标列的数量。如果 return_X_y 为 True,则 (data, target) 将是如下所述的 pandas DataFrames 或 Series。

在 0.23 版本中新增。

scaledbool, 默认值=True

如果为 True,特征变量将进行均值归一化,并按标准差乘以 n_samples 的平方根进行缩放。如果为 False,则返回特征变量的原始数据。

在 1.1 版本中新增。

返回:
dataBunch

字典型对象,具有以下属性。

data{ndarray, dataframe} 形状为 (442, 10)

数据矩阵。如果 as_frame=Truedata 将是一个 pandas DataFrame。

target: {ndarray, Series} 形状为 (442,)

回归目标。如果 as_frame=Truetarget 将是一个 pandas Series。

feature_names: list

数据集列的名称。

frame: DataFrame 形状为 (442, 11)

仅当 as_frame=True 时存在。包含 datatarget 的 DataFrame。

在 0.23 版本中新增。

DESCR: str

数据集的完整描述。

data_filename: str

数据文件位置的路径。

target_filename: str

目标文件位置的路径。

(data, target)如果 return_X_y 为 True,则为元组

返回一个包含两个 ndarray 的元组,形状为 (n_samples, n_features)。一个 2D 数组,每行表示一个样本,每列表示给定样本的特征和/或目标。

在 0.18 版本中新增。

示例

>>> from sklearn.datasets import load_diabetes
>>> diabetes = load_diabetes()
>>> diabetes.target[:3]
array([151.,  75., 141.])
>>> diabetes.data.shape
(442, 10)