加载乳腺癌数据集#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[source]#
- 加载并返回威斯康星乳腺癌数据集(分类)。 - 乳腺癌数据集是一个经典且非常简单的二元分类数据集。 - 类别 - 2 - 每个类别的样本数 - 212(M),357(B) - 样本总数 - 569 - 维度 - 30 - 特征 - 实数,正数 - UCI机器学习乳腺癌威斯康星州(诊断)数据集的副本下载自:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic - 更多信息请阅读用户指南。 - 参数:
- return_X_y布尔值,默认为False
- 如果为True,则返回 - (data, target)而不是Bunch对象。有关- data和- target对象的更多信息,请参见下文。- 0.18版本新增。 
- as_frame布尔值,默认为False
- 如果为True,则数据为包含具有适当数据类型的(数值型)列的pandas DataFrame。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果 - return_X_y为True,则(- data,- target)将是如下所述的pandas DataFrame或Series。- 0.23版本新增。 
 
- 返回值:
- dataBunch
- 字典状对象,具有以下属性。 - data形状为(569, 30)的{ndarray, dataframe}
- 数据矩阵。如果 - as_frame=True,- data将是pandas DataFrame。
- target形状为(569,)的{ndarray, Series}
- 分类目标。如果 - as_frame=True,- target将是pandas Series。
- feature_names形状为(30,)的ndarray
- 数据集列的名称。 
- target_names形状为(2,)的ndarray
- 目标类的名称。 
- frame形状为(569, 31)的DataFrame
- 仅当 - as_frame=True时出现。包含- data和- target的DataFrame。- 0.23版本新增。 
- DESCR字符串
- 数据集的完整描述。 
- filename字符串
- 数据位置的路径。 - 0.20版本新增。 
 
- (data, target)如果return_X_y为True,则为元组
- 默认情况下,包含两个ndarray的元组。第一个包含形状为(569, 30)的二维ndarray,其中每一行代表一个样本,每一列代表特征。第二个形状为(569,)的ndarray包含目标样本。如果 - as_frame=True,则两个数组都是pandas对象,即- X为dataframe,- y为series。- 0.18版本新增。 
 
- data
 - 示例 - 假设您对样本10、50和85感兴趣,并想知道它们的类别名称。 - >>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) [np.str_('malignant'), np.str_('benign')] 
 
     
 
 
