load_diabetes#

sklearn.datasets.load_diabetes(*, return_X_y=False, as_frame=False, scaled=True)[source]#

加载并返回糖尿病数据集(回归)。

样本总数

442

维度

10

特征值范围

实数, -.2 < x < .2

目标值

整数 25 - 346

注意

每个特征的含义(即 feature_names)可能不清楚(尤其是对于 ltg),因为原始数据集的文档不够明确。我们根据该研究领域的科学文献提供了看似正确的信息。

用户指南中了解更多信息。

参数:
return_X_ybool, default=False

如果为 True,则返回 (data, target) 而不是 Bunch 对象。有关 datatarget 对象的更多信息,请参阅下文。

版本 0.18 新增。

as_framebool, default=False

如果为 True,则数据是包含具有相应 dtypes(数字)的列的 pandas DataFrame。目标是 pandas DataFrame 或 Series,具体取决于目标列数。如果 return_X_y 为 True,则 (data, target) 将是如下所述的 pandas DataFrames 或 Series。

0.23 版本新增。

scaledbool, default=True

如果为 True,则特征变量按均值中心化并乘以标准差和 n_samples 平方根的乘积进行缩放。如果为 False,则返回特征变量的原始数据。

版本 1.1 中新增。

返回:
dataBunch

Dictionary-like object, with the following attributes.

data{ndarray, dataframe} of shape (442, 10)

数据矩阵。如果 as_frame=Truedata 将是一个 pandas DataFrame。

target: {ndarray, Series} of shape (442,)

回归目标。如果 as_frame=Truetarget 将是一个 pandas Series。

feature_names: list

数据集列的名称。

frame: DataFrame of shape (442, 11)

仅当 as_frame=True 时存在。包含 datatarget 的 DataFrame。

0.23 版本新增。

DESCR: str

The full description of the dataset.

data_filename: str

The path to the location of the data.

target_filename: str

目标文件所在路径。

(data, target)tuple if return_X_y is True

返回一个包含两个形状为 (n_samples, n_features) 的 ndarray 的元组。一个二维数组,其中每一行代表一个样本,每一列代表给定样本的特征和/或目标。

版本 0.18 新增。

示例

>>> from sklearn.datasets import load_diabetes
>>> diabetes = load_diabetes()
>>> diabetes.target[:3]
array([151.,  75., 141.])
>>> diabetes.data.shape
(442, 10)