加载乳腺癌数据集#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[source]#

加载并返回威斯康星乳腺癌数据集(分类)。

乳腺癌数据集是一个经典且非常简单的二元分类数据集。

类别

2

每个类别的样本数

212(M),357(B)

样本总数

569

维度

30

特征

实数,正数

UCI机器学习乳腺癌威斯康星州(诊断)数据集的副本下载自:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

更多信息请阅读用户指南

参数:
return_X_y布尔值,默认为False

如果为True,则返回(data, target)而不是Bunch对象。有关datatarget对象的更多信息,请参见下文。

0.18版本新增。

as_frame布尔值,默认为False

如果为True,则数据为包含具有适当数据类型的(数值型)列的pandas DataFrame。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果return_X_y为True,则(data, target)将是如下所述的pandas DataFrame或Series。

0.23版本新增。

返回值:
dataBunch

字典状对象,具有以下属性。

data形状为(569, 30)的{ndarray, dataframe}

数据矩阵。如果as_frame=Truedata将是pandas DataFrame。

target形状为(569,)的{ndarray, Series}

分类目标。如果as_frame=Truetarget将是pandas Series。

feature_names形状为(30,)的ndarray

数据集列的名称。

target_names形状为(2,)的ndarray

目标类的名称。

frame形状为(569, 31)的DataFrame

仅当as_frame=True时出现。包含datatarget的DataFrame。

0.23版本新增。

DESCR字符串

数据集的完整描述。

filename字符串

数据位置的路径。

0.20版本新增。

(data, target)如果return_X_y为True,则为元组

默认情况下,包含两个ndarray的元组。第一个包含形状为(569, 30)的二维ndarray,其中每一行代表一个样本,每一列代表特征。第二个形状为(569,)的ndarray包含目标样本。如果as_frame=True,则两个数组都是pandas对象,即X为dataframe,y为series。

0.18版本新增。

示例

假设您对样本10、50和85感兴趣,并想知道它们的类别名称。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]