load_diabetes#
- sklearn.datasets.load_diabetes(*, return_X_y=False, as_frame=False, scaled=True)[source]#
加载并返回糖尿病数据集(回归)。
样本总数
442
维度
10
特征
实数, -.2 < x < .2
目标
整数 25 - 346
注意
每个特征的含义(即
feature_names
)可能不明确(特别是对于ltg
),因为原始数据集的文档不明确。我们提供了与该研究领域的科学文献似乎一致的信息。在用户指南中阅读更多内容。
- 参数:
- return_X_ybool, 默认值=False
如果为 True,则返回
(data, target)
而不是 Bunch 对象。有关data
和target
对象的更多信息,请参见下文。在 0.18 版本中新增。
- as_framebool, 默认值=False
如果为 True,数据将是一个 pandas DataFrame,包含具有适当 dtypes(数值)的列。目标将是一个 pandas DataFrame 或 Series,具体取决于目标列的数量。如果
return_X_y
为 True,则 (data
,target
) 将是如下所述的 pandas DataFrames 或 Series。在 0.23 版本中新增。
- scaledbool, 默认值=True
如果为 True,特征变量将进行均值归一化,并按标准差乘以
n_samples
的平方根进行缩放。如果为 False,则返回特征变量的原始数据。在 1.1 版本中新增。
- 返回:
- data
Bunch
字典型对象,具有以下属性。
- data{ndarray, dataframe} 形状为 (442, 10)
数据矩阵。如果
as_frame=True
,data
将是一个 pandas DataFrame。- target: {ndarray, Series} 形状为 (442,)
回归目标。如果
as_frame=True
,target
将是一个 pandas Series。- feature_names: list
数据集列的名称。
- frame: DataFrame 形状为 (442, 11)
仅当
as_frame=True
时存在。包含data
和target
的 DataFrame。在 0.23 版本中新增。
- DESCR: str
数据集的完整描述。
- data_filename: str
数据文件位置的路径。
- target_filename: str
目标文件位置的路径。
- (data, target)如果
return_X_y
为 True,则为元组 返回一个包含两个 ndarray 的元组,形状为 (n_samples, n_features)。一个 2D 数组,每行表示一个样本,每列表示给定样本的特征和/或目标。
在 0.18 版本中新增。
- data
示例
>>> from sklearn.datasets import load_diabetes >>> diabetes = load_diabetes() >>> diabetes.target[:3] array([151., 75., 141.]) >>> diabetes.data.shape (442, 10)