加载葡萄酒数据集#

sklearn.datasets.load_wine(*, return_X_y=False, as_frame=False)[source]#

加载并返回葡萄酒数据集（分类）。

0.18版本新增。

葡萄酒数据集是一个经典且非常简单的多类别分类数据集。

类别	3
每个类别的样本数	[59,71,48]
样本总数	178
维数	13
特征	实数，正数

UCI ML葡萄酒数据集的副本已下载并修改为符合标准格式，数据来源：https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

更多信息请参见用户指南。

参数:

return_X_y布尔值，默认为False: 如果为True，则返回(data, target)而不是Bunch对象。有关data和target对象的更多信息，请参见下文。
as_frame布尔值，默认为False: 如果为True，则数据是一个pandas DataFrame，包含具有适当数据类型（数值型）的列。目标是一个pandas DataFrame或Series，具体取决于目标列的数量。如果return_X_y为True，则(data, target)将如以下所述为pandas DataFrames或Series。

0.23版本新增。

返回:

dataBunch

类似字典的对象，具有以下属性。

data{ndarray, dataframe} 形状为 (178, 13): 数据矩阵。如果as_frame=True，data将是一个pandas DataFrame。
target: {ndarray, Series} 形状为 (178,): 分类目标。如果as_frame=True，target将是一个pandas Series。
feature_names: 列表: 数据集列的名称。
target_names: 列表: 目标类别的名称。
frame: 形状为 (178, 14) 的DataFrame: 仅当as_frame=True时出现。包含data和target的DataFrame。

0.23版本新增。
DESCR: 字符串: 数据集的完整描述。

(data, target)如果return_X_y为True，则为元组

默认情况下，包含两个ndarray的元组。第一个包含形状为(178, 13)的二维数组，其中每一行代表一个样本，每一列代表一个特征。第二个形状为(178,)的数组包含目标样本。

示例

假设您对样本10、80和140感兴趣，并想知道它们的类别名称。

>>> from sklearn.datasets import load_wine
>>> data = load_wine()
>>> data.target[[10, 80, 140]]
array([0, 1, 2])
>>> list(data.target_names)
[np.str_('class_0'), np.str_('class_1'), np.str_('class_2')]

示例库#

真实数据集上的异常值检测

带有可视化API的ROC曲线

特征缩放的重要性