load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[source]#

加载并返回乳腺癌威斯康星数据集（分类）。

乳腺癌数据集是一个经典且非常简单的二元分类数据集。

类别数	2
每类的样本数	212(M),357(B)
样本总数	569
维度	30
特征值范围	real, positive

UCI ML Breast Cancer Wisconsin (Diagnostic) 数据集副本下载自：https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

在用户指南中了解更多信息。

参数:

return_X_ybool, default=False: 如果为 True，则返回 (data, target) 而不是 Bunch 对象。有关 data 和 target 对象的更多信息，请参阅下文。

版本 0.18 新增。
as_framebool, default=False: 如果为 True，则数据是包含具有相应 dtypes（数字）的列的 pandas DataFrame。目标是 pandas DataFrame 或 Series，具体取决于目标列数。如果 return_X_y 为 True，则 (data, target) 将是如下所述的 pandas DataFrames 或 Series。

0.23 版本新增。

返回:

dataBunch

Dictionary-like object, with the following attributes.

data{ndarray, dataframe} of shape (569, 30): 数据矩阵。如果 as_frame=True，data 将是一个 pandas DataFrame。
target{ndarray, Series} of shape (569,): 分类目标。如果 as_frame=True，target 将是一个 pandas Series。
feature_namesndarray of shape (30,): 数据集列的名称。
target_namesndarray of shape (2,): The names of target classes.
frameDataFrame of shape (569, 31): 仅当 as_frame=True 时存在。包含 data 和 target 的 DataFrame。

0.23 版本新增。
DESCRstr: The full description of the dataset.
filenamestr: The path to the location of the data.

0.20 版本新增。

(data, target)tuple if return_X_y is True

默认情况下返回一个包含两个 ndarray 的元组。第一个 ndarray 的形状为 (569, 30)，其中每行代表一个样本，每列代表一个特征。第二个 ndarray 的形状为 (569,)，包含目标样本。如果 as_frame=True，则两个数组都是 pandas 对象，即 X 是一个 dataframe，y 是一个 series。

版本 0.18 新增。

示例

假设您对样本 10、50 和 85 感兴趣，并想知道它们的类别名称。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]

Gallery examples#

load_breast_cancer#

Gallery examples#

本页