load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[source]#

加载并返回乳腺癌威斯康星数据集(分类)。

乳腺癌数据集是一个经典且非常简单的二元分类数据集。

类别数

2

每类的样本数

212(M),357(B)

样本总数

569

维度

30

特征值范围

real, positive

UCI ML Breast Cancer Wisconsin (Diagnostic) 数据集副本下载自:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

用户指南中了解更多信息。

参数:
return_X_ybool, default=False

如果为 True,则返回 (data, target) 而不是 Bunch 对象。有关 datatarget 对象的更多信息,请参阅下文。

版本 0.18 新增。

as_framebool, default=False

如果为 True,则数据是包含具有相应 dtypes(数字)的列的 pandas DataFrame。目标是 pandas DataFrame 或 Series,具体取决于目标列数。如果 return_X_y 为 True,则 (data, target) 将是如下所述的 pandas DataFrames 或 Series。

0.23 版本新增。

返回:
dataBunch

Dictionary-like object, with the following attributes.

data{ndarray, dataframe} of shape (569, 30)

数据矩阵。如果 as_frame=Truedata 将是一个 pandas DataFrame。

target{ndarray, Series} of shape (569,)

分类目标。如果 as_frame=Truetarget 将是一个 pandas Series。

feature_namesndarray of shape (30,)

数据集列的名称。

target_namesndarray of shape (2,)

The names of target classes.

frameDataFrame of shape (569, 31)

仅当 as_frame=True 时存在。包含 datatarget 的 DataFrame。

0.23 版本新增。

DESCRstr

The full description of the dataset.

filenamestr

The path to the location of the data.

0.20 版本新增。

(data, target)tuple if return_X_y is True

默认情况下返回一个包含两个 ndarray 的元组。第一个 ndarray 的形状为 (569, 30),其中每行代表一个样本,每列代表一个特征。第二个 ndarray 的形状为 (569,),包含目标样本。如果 as_frame=True,则两个数组都是 pandas 对象,即 X 是一个 dataframe,y 是一个 series。

版本 0.18 新增。

示例

假设您对样本 10、50 和 85 感兴趣,并想知道它们的类别名称。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]