fetch_20newsgroups_vectorized#
- sklearn.datasets.fetch_20newsgroups_vectorized(*, subset='train', remove=(), data_home=None, download_if_missing=True, return_X_y=False, normalize=True, as_frame=False, n_retries=3, delay=1.0)[源代码]#
加载和向量化 20 newsgroups 数据集(分类)。
Download it if necessary.
这是一个便捷函数;转换过程使用
CountVectorizer的默认设置完成。对于更高级的用法(停用词过滤、n-gram 提取等),请结合使用 fetch_20newsgroups 以及自定义的CountVectorizer、HashingVectorizer、TfidfTransformer或TfidfVectorizer。生成的计数会使用
sklearn.preprocessing.normalize进行归一化,除非将 normalize 设置为 False。类别数
20
样本总数
18846
维度
130107
特征值范围
real
阅读更多内容请参阅 用户指南。
- 参数:
- subset{‘train’, ‘test’, ‘all’}, default=’train’
选择要加载的数据集:“train”表示训练集,“test”表示测试集,“all”表示两者,并进行随机排序。
- removetuple, default=()
可以包含 (‘headers’, ‘footers’, ‘quotes’) 的任意子集。这些是会被检测并从新闻组帖子中删除的文本类型,旨在防止分类器对元数据过拟合。
‘headers’ 删除新闻组页眉,‘footers’ 删除帖子末尾看起来像签名的块,‘quotes’ 删除看起来是在引用其他帖子的行。
- data_homestr or path-like, default=None
指定数据集的下载和缓存文件夹。如果为 None,所有 scikit-learn 数据将存储在 ‘~/scikit_learn_data’ 子文件夹中。
- download_if_missingbool, default=True
If False, raise an OSError if the data is not locally available instead of trying to download the data from the source site.
- return_X_ybool, default=False
If True, returns
(data.data, data.target)instead of a Bunch object.0.20 版本新增。
- normalizebool, default=True
如果为 True,使用
sklearn.preprocessing.normalize将每个文档的特征向量归一化为单位范数。版本 0.22 新增。
- as_framebool, default=False
如果为 True,数据将是一个 pandas DataFrame,包括具有适当数据类型(数值、字符串或分类)的列。目标是一个 pandas DataFrame 或 Series,取决于
target_columns的数量。0.24 版本新增。
- n_retriesint, default=3
Number of retries when HTTP errors are encountered.
1.5 版本新增。
- delayfloat, default=1.0
Number of seconds between retries.
1.5 版本新增。
- 返回:
- bunch
Bunch Dictionary-like object, with the following attributes.
- data: {稀疏矩阵, dataframe}, 形状为 (n_samples, n_features)
输入数据矩阵。如果
as_frame为True,则data是一个具有稀疏列的 pandas DataFrame。- target: {ndarray, series}, 形状为 (n_samples,)
目标标签。如果
as_frame为True,则target是一个 pandas Series。- target_names: 列表, 形状为 (n_classes,)
The names of target classes.
- DESCR: str
The full description of the dataset.
- frame: dataframe, 形状为 (n_samples, n_features + 1)
仅当
as_frame=True时存在。包含data和target的 pandas DataFrame。0.24 版本新增。
- (data, target)tuple if
return_X_yis True data和target将采用上述Bunch描述中定义的格式。0.20 版本新增。
- bunch
示例
>>> from sklearn.datasets import fetch_20newsgroups_vectorized >>> newsgroups_vectorized = fetch_20newsgroups_vectorized(subset='test') >>> newsgroups_vectorized.data.shape (7532, 130107) >>> newsgroups_vectorized.target.shape (7532,)