获取KDD Cup 99数据集#
- sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#
- 加载KDD Cup 99数据集(分类)。 - 必要时下载。 - 类别 - 23 - 样本总数 - 4898431 - 维度 - 41 - 特征 - 离散型(整数)或连续型(浮点数) - 在用户指南中了解更多信息。 - 在0.18版本中添加。 - 参数:
- subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, 默认值=None
- 返回KDD Cup 99对应的经典子集。如果为None,则返回整个KDD Cup 99数据集。 
- data_homestr 或 path-like 对象, 默认值=None
- 指定数据集的另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在’~/scikit_learn_data’子文件夹中。 - 在0.19版本中添加。 
- shufflebool, 默认值=False
- 是否打乱数据集。 
- random_stateint, RandomState 实例或 None, 默认值=None
- 确定数据集混洗的随机数生成以及如果 - subset='SA'则选择异常样本。传递一个整数以在多次函数调用中获得可重复的输出。参见词汇表。
- percent10bool, 默认值=True
- 是否只加载10%的数据。 
- download_if_missingbool, 默认值=True
- 如果为False,则如果数据在本地不可用,则引发OSError异常,而不是尝试从源站点下载数据。 
- return_X_ybool, 默认值=False
- 如果为True,则返回 - (data, target)而不是Bunch对象。有关- data和- target对象的更多信息,请参见下文。- 在0.20版本中添加。 
- as_framebool, 默认值=False
- 如果为 - True,则为返回的- Bunch对象中的- data和- target对象返回pandas DataFrame;- Bunch返回对象也将具有- frame成员。- 在0.24版本中添加。 
- n_retriesint, 默认值=3
- 遇到HTTP错误时的重试次数。 - 在1.5版本中添加。 
- delayfloat, 默认值=1.0
- 两次重试之间的秒数。 - 在1.5版本中添加。 
 
- 返回:
- dataBunch
- 类似字典的对象,具有以下属性。 - data{ndarray, dataframe} 形状为 (494021, 41)
- 要学习的数据矩阵。如果 - as_frame=True,- data将是pandas DataFrame。
- target{ndarray, series} 形状为 (494021,)
- 每个样本的回归目标。如果 - as_frame=True,- target将是pandas Series。
- framedataframe 形状为 (494021, 42)
- 仅当 - as_frame=True时存在。包含- data和- target。
- DESCRstr
- 数据集的完整描述。 
- feature_nameslist
- 数据集列的名称 
- target_names: list
- 目标列的名称 
 
- (data, target)如果return_X_y为True,则为元组
- 两个ndarray的元组。第一个包含形状为(n_samples, n_features)的二维数组,其中每一行表示一个样本,每一列表示特征。第二个形状为(n_samples,)的ndarray包含目标样本。 - 在0.20版本中添加。 
 
- data
 
 
    