load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[源]#

加载并返回威斯康星州乳腺癌数据集(分类)。

乳腺癌数据集是一个经典且非常简单的二元分类数据集。

类别

2

每类别样本数

212(M),357(B)

样本总数

569

维度

30

特征

实数,正数

UCI ML 威斯康星乳腺癌(诊断)数据集的副本可从以下网址下载:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

更多信息请参阅用户指南

参数:
return_X_y布尔型, 默认为 False

如果为 True,则返回 (data, target) 而非 Bunch 对象。有关 datatarget 对象的更多信息,请参阅下文。

版本 0.18 中新增。

as_frame布尔型, 默认为 False

如果为 True,则数据将是一个 pandas DataFrame,其中包含具有适当数据类型(数值型)的列。目标将是一个 pandas DataFrame 或 Series,具体取决于目标列的数量。如果 return_X_y 为 True,则 (data, target) 将是 pandas DataFrames 或 Series,具体描述如下。

版本 0.23 中新增。

返回:
dataBunch

字典类对象,具有以下属性。

data{ndarray, dataframe} 形状为 (569, 30)

数据矩阵。如果 as_frame=Truedata 将是一个 pandas DataFrame。

target{ndarray, Series} 形状为 (569,)

分类目标。如果 as_frame=Truetarget 将是一个 pandas Series。

feature_names形状为 (30,) 的 ndarray

数据集列的名称。

target_names形状为 (2,) 的 ndarray

目标类别的名称。

frame形状为 (569, 31) 的 DataFrame

仅当 as_frame=True 时存在。包含 datatarget 的 DataFrame。

版本 0.23 中新增。

DESCR字符串

数据集的完整描述。

filename字符串

数据所在位置的路径。

版本 0.20 中新增。

(data, target)如果 return_X_y 为 True,则为元组

默认情况下为两个 ndarray 的元组。第一个包含形状为 (569, 30) 的二维 ndarray,其中每行表示一个样本,每列表示特征。第二个形状为 (569,) 的 ndarray 包含目标样本。如果 as_frame=True,则两个数组都是 pandas 对象,即 X 为 dataframe,y 为 series。

版本 0.18 中新增。

示例

假设您对样本 10、50 和 85 感兴趣,并想知道它们的类别名称。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]