load_breast_cancer#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[source]#
加载并返回乳腺癌威斯康星数据集(分类)。
乳腺癌数据集是一个经典且非常简单的二元分类数据集。
类别数
2
每类的样本数
212(M),357(B)
样本总数
569
维度
30
特征值范围
real, positive
UCI ML Breast Cancer Wisconsin (Diagnostic) 数据集副本下载自:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
在用户指南中了解更多信息。
- 参数:
- return_X_ybool, default=False
如果为 True,则返回
(data, target)而不是 Bunch 对象。有关data和target对象的更多信息,请参阅下文。版本 0.18 新增。
- as_framebool, default=False
如果为 True,则数据是包含具有相应 dtypes(数字)的列的 pandas DataFrame。目标是 pandas DataFrame 或 Series,具体取决于目标列数。如果
return_X_y为 True,则 (data,target) 将是如下所述的 pandas DataFrames 或 Series。0.23 版本新增。
- 返回:
- data
Bunch Dictionary-like object, with the following attributes.
- data{ndarray, dataframe} of shape (569, 30)
数据矩阵。如果
as_frame=True,data将是一个 pandas DataFrame。- target{ndarray, Series} of shape (569,)
分类目标。如果
as_frame=True,target将是一个 pandas Series。- feature_namesndarray of shape (30,)
数据集列的名称。
- target_namesndarray of shape (2,)
The names of target classes.
- frameDataFrame of shape (569, 31)
仅当
as_frame=True时存在。包含data和target的 DataFrame。0.23 版本新增。
- DESCRstr
The full description of the dataset.
- filenamestr
The path to the location of the data.
0.20 版本新增。
- (data, target)tuple if
return_X_yis True 默认情况下返回一个包含两个 ndarray 的元组。第一个 ndarray 的形状为 (569, 30),其中每行代表一个样本,每列代表一个特征。第二个 ndarray 的形状为 (569,),包含目标样本。如果
as_frame=True,则两个数组都是 pandas 对象,即X是一个 dataframe,y是一个 series。版本 0.18 新增。
- data
示例
假设您对样本 10、50 和 85 感兴趣,并想知道它们的类别名称。
>>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) [np.str_('malignant'), np.str_('benign')]