fetch_kddcup99#
- sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[source]#
加载 kddcup99 数据集(分类)。
Download it if necessary.
类别数
23
样本总数
4898431
维度
41
特征值范围
离散(int)或连续(float)
在用户指南中了解更多信息。
版本 0.18 新增。
- 参数:
- subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, default=None
返回 kddcup 99 相应的经典子集。如果为 None,则返回整个 kddcup 99 数据集。
- data_homestr or path-like, default=None
为数据集指定另一个下载和缓存文件夹。默认情况下,所有 scikit-learn 数据都存储在 ‘~/scikit_learn_data’ 子文件夹中。
Added in version 0.19.
- shufflebool, default=False
是否打乱数据集。
- random_stateint, RandomState instance or None, default=None
确定数据集打乱的随机数生成,以及如果
subset='SA'时异常样本选择的随机数生成。传入一个 int 以在多次函数调用中获得可重现的输出。请参阅词汇表。- percent10bool, default=True
是否只加载 10% 的数据。
- download_if_missingbool, default=True
If False, raise an OSError if the data is not locally available instead of trying to download the data from the source site.
- return_X_ybool, default=False
如果为 True,则返回
(data, target)而不是 Bunch 对象。有关data和target对象的更多信息,请参阅下文。0.20 版本新增。
- as_framebool, default=False
如果为
True,则返回的Bunch对象中的data和target对象将是 pandas Dataframe;Bunch返回对象还将有一个frame成员。0.24 版本新增。
- n_retriesint, default=3
Number of retries when HTTP errors are encountered.
1.5 版本新增。
- delayfloat, default=1.0
Number of seconds between retries.
1.5 版本新增。
- 返回:
- data
Bunch Dictionary-like object, with the following attributes.
- data{ndarray, dataframe} of shape (494021, 41)
用于学习的数据矩阵。如果
as_frame=True,data将是一个 pandas DataFrame。- target{ndarray, series} of shape (494021,)
每个样本的回归目标。如果
as_frame=True,target将是一个 pandas Series。- framedataframe of shape (494021, 42)
仅当
as_frame=True时存在。包含data和target。- DESCRstr
The full description of the dataset.
- feature_nameslist
数据集列的名称
- target_names: list
目标列的名称
- (data, target)tuple if
return_X_yis True 包含两个 ndarray 的元组。第一个包含一个形状为 (n_samples, n_features) 的二维数组,其中每一行代表一个样本,每一列代表特征。第二个 ndarray 的形状为 (n_samples,),包含目标样本。
0.20 版本新增。
- data