fetch_kddcup99#
- sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[source]#
加载 kddcup99 数据集(分类)。
如果需要,下载它。
类别
23
样本总数
4898431
维度
41
特征
离散(整型)或连续(浮点型)
在用户指南中阅读更多内容。
在 0.18 版本中新增。
- 参数:
- subset{‘SA’, ‘SF’, ‘http’, ‘smtp’},默认值=None
返回 kddcup 99 的相应经典子集。如果为 None,则返回整个 kddcup 99 数据集。
- data_homestr 或路径类对象,默认值=None
为数据集指定另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在“~/scikit_learn_data”子文件夹中。
在 0.19 版本中新增。
- shuffle布尔值,默认值=False
是否打乱数据集。
- random_state整型、RandomState 实例或 None,默认值=None
确定数据集洗牌和选择异常样本(如果
subset='SA'
)的随机数生成。传递一个整型值可确保在多次函数调用中输出可重现。请参阅术语表。- percent10布尔值,默认值=True
是否只加载 10% 的数据。
- download_if_missing布尔值,默认值=True
如果为 False,则在数据在本地不可用时引发 OSError,而不是尝试从源站点下载数据。
- return_X_y布尔值,默认值=False
如果为 True,则返回
(data, target)
而不是 Bunch 对象。有关data
和target
对象的更多信息,请参阅下文。在 0.20 版本中新增。
- as_frame布尔值,默认值=False
如果为
True
,则为返回的Bunch
对象中的data
和target
对象返回 pandas DataFrame;Bunch
返回对象还将包含一个frame
成员。在 0.24 版本中新增。
- n_retries整型,默认值=3
遇到 HTTP 错误时的重试次数。
在 1.5 版本中新增。
- delay浮点型,默认值=1.0
每次重试之间的秒数。
在 1.5 版本中新增。
- 返回:
- data
Bunch
类字典对象,具有以下属性。
- data{ndarray, dataframe},形状为 (494021, 41)
用于学习的数据矩阵。如果
as_frame=True
,则data
将是一个 pandas DataFrame。- target{ndarray, series},形状为 (494021,)
每个样本的回归目标。如果
as_frame=True
,则target
将是一个 pandas Series。- framedataframe,形状为 (494021, 42)
仅当
as_frame=True
时存在。包含data
和target
。- DESCRstr
数据集的完整描述。
- feature_names列表
数据集列的名称
- target_names: 列表
目标列的名称
- (data, target)如果
return_X_y
为 True,则为元组 一个由两个 ndarray 组成的元组。第一个包含一个形状为 (n_samples, n_features) 的 2D 数组,其中每行代表一个样本,每列代表特征。第二个是形状为 (n_samples,) 的 ndarray,包含目标样本。
在 0.20 版本中新增。
- data