加载糖尿病数据集#
- sklearn.datasets.load_diabetes(*, return_X_y=False, as_frame=False, scaled=True)[source]#
加载并返回糖尿病数据集(回归)。
样本总数
442
维度
10
特征
实数,-0.2 < x < 0.2
目标值
整数,25 - 346
注意
每个特征的含义(即
feature_names
)可能不明确(特别是对于ltg
),因为原始数据集的文档说明不够明确。我们根据该研究领域的科学文献提供似乎正确的信息。更多详情请参阅用户指南。
- 参数:
- return_X_y布尔值,默认为False
如果为 True,则返回
(data, target)
而不是 Bunch 对象。有关data
和target
对象的更多信息,请参见下文。0.18 版本新增。
- as_frame布尔值,默认为False
如果为 True,则数据是一个 pandas DataFrame,包含具有适当数据类型(数值型)的列。目标是 pandas DataFrame 或 Series,具体取决于目标列的数量。如果
return_X_y
为 True,则(data
,target
) 将成为如下所述的 pandas DataFrame 或 Series。0.23 版本新增。
- scaled布尔值,默认为True
如果为 True,则特征变量将以均值居中,并按标准差乘以
n_samples
的平方根进行缩放。如果为 False,则返回特征变量的原始数据。1.1 版本新增。
- 返回:
- data
Bunch
字典状对象,具有以下属性。
- data{ndarray, dataframe} 形状为 (442, 10)
数据矩阵。如果
as_frame=True
,data
将是 pandas DataFrame。- target: {ndarray, Series} 形状为 (442,)
回归目标。如果
as_frame=True
,target
将是 pandas Series。- feature_names: 列表
数据集列的名称。
- frame: DataFrame 形状为 (442, 11)
仅当
as_frame=True
时出现。包含data
和target
的 DataFrame。0.23 版本新增。
- DESCR: 字符串
数据集的完整描述。
- data_filename: 字符串
数据所在位置的路径。
- target_filename: 字符串
目标所在位置的路径。
- (data, target)如果
return_X_y
为 True,则为元组 返回形状为 (n_samples, n_features) 的两个 ndarray 的元组。一个二维数组,每一行代表一个样本,每一列代表给定样本的特征和/或目标。
0.18 版本新增。
- data
示例
>>> from sklearn.datasets import load_diabetes >>> diabetes = load_diabetes() >>> diabetes.target[:3] array([151., 75., 141.]) >>> diabetes.data.shape (442, 10)
图库示例#
Lasso、Lasso-LARS 和 Elastic Net 路径