train_test_split#

sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)[来源]#

将数组或矩阵分割成随机的训练集和测试集子集。

一个快速的实用工具，它封装了输入验证、next(ShuffleSplit().split(X, y))，并将这些应用于输入数据，从而实现一行代码的数据分割（和可选的子采样）。

在用户指南中阅读更多。

参数:

*arrays具有相同长度/形状[0]的可索引序列: 允许的输入是列表、numpy数组、scipy稀疏矩阵或pandas数据帧。
test_size浮点数或整数，默认为 None: 如果为浮点数，应介于 0.0 和 1.0 之间，表示要包含在测试分割中的数据集比例。如果为整数，则表示测试样本的绝对数量。如果为 None，则该值设置为训练集大小的补集。如果train_size也为 None，则它将被设置为 0.25。
train_size浮点数或整数，默认为 None: 如果为浮点数，应介于 0.0 和 1.0 之间，表示要包含在训练分割中的数据集比例。如果为整数，则表示训练样本的绝对数量。如果为 None，则该值会自动设置为测试集大小的补集。
random_state整数、RandomState 实例或 None，默认为 None: 控制在应用分割之前应用于数据的洗牌。传入一个整数以在多次函数调用中获得可重现的输出。参见词汇表。
shuffle布尔值，默认为 True: 是否在分割数据之前打乱数据。如果 shuffle=False 则 stratify 必须为 None。
stratify类数组，默认为 None: 如果不为 None，则数据以分层方式分割，并将其用作类别标签。在用户指南中阅读更多。

返回:

splitting列表，长度 = 2 * len(arrays): 包含输入训练集-测试集分割的列表。

0.16 版新增：如果输入是稀疏的，输出将是 scipy.sparse.csr_matrix。否则，输出类型与输入类型相同。

示例

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
       [0, 1],
       [6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
       [8, 9]])
>>> y_test
[1, 4]

>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]

>>> from sklearn import datasets
>>> iris = datasets.load_iris(as_frame=True)
>>> X, y = iris['data'], iris['target']
>>> X.head()
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2
>>> y.head()
0    0
1    0
2    0
3    0
4    0
...

>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.33, random_state=42)
...
>>> X_train.head()
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
96                 5.7               2.9                4.2               1.3
105                7.6               3.0                6.6               2.1
66                 5.6               3.0                4.5               1.5
0                  5.1               3.5                1.4               0.2
122                7.7               2.8                6.7               2.0
>>> y_train.head()
96     1
105    2
66     1
0      0
122    2
...
>>> X_test.head()
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
73                 6.1               2.8                4.7               1.2
18                 5.7               3.8                1.7               0.3
118                7.7               2.6                6.9               2.3
78                 6.0               2.9                4.5               1.5
76                 6.8               2.8                4.8               1.4
>>> y_test.head()
73     1
18     0
118    2
78     1
76     1
...

画廊示例#

使用核主成分分析进行图像去噪

使用核主成分分析进行图像去噪

使用特征脸和支持向量机进行人脸识别示例

使用特征脸和支持向量机进行人脸识别示例

模型复杂性影响

模型复杂性影响

预测延迟

用于时间序列预测的滞后特征

用于时间序列预测的滞后特征

分类器的概率校准

分类器的概率校准

概率校准曲线

概率校准曲线

分类器校准比较

分类器校准比较

绘制分类概率

绘制分类概率

分类器比较

分类器比较

识别手写数字

识别手写数字

混合类型列转换器

混合类型列转换器

在回归模型中转换目标的影响

在回归模型中转换目标的影响

主成分回归与偏最小二乘回归

主成分回归与偏最小二乘回归

核主成分分析

核主成分分析

多类别 AdaBoosted 决策树

多类别 AdaBoosted 决策树

使用树集成进行特征转换

使用树集成进行特征转换

使用树林进行特征重要性分析

使用树林进行特征重要性分析

梯度提升中的早期停止

梯度提升中的早期停止

梯度提升袋外估计

梯度提升袋外估计

梯度提升回归的预测区间

梯度提升回归的预测区间

梯度提升回归

梯度提升回归

梯度提升正则化

梯度提升正则化

直方图梯度提升树中的特征

直方图梯度提升树中的特征

IsolationForest 示例

IsolationForest 示例

随机森林与多输出元估计器的比较

随机森林与多输出元估计器的比较

单变量特征选择

单变量特征选择

Pipeline ANOVA SVM

Pipeline ANOVA SVM

使用 FrozenEstimator 的示例

使用 FrozenEstimator 的示例

机器学习推断因果效应的失败

机器学习推断因果效应的失败

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

置换重要性与随机森林特征重要性 (MDI)

置换重要性与随机森林特征重要性 (MDI)

具有多重共线性或相关特征的置换重要性

具有多重共线性或相关特征的置换重要性

多项式核近似的可伸缩学习

多项式核近似的可伸缩学习

用于稀疏信号的基于 L1 的模型

用于稀疏信号的基于 L1 的模型

非负最小二乘

非负最小二乘

普通最小二乘和岭回归

普通最小二乘和岭回归

泊松回归和非正态损失

泊松回归和非正态损失

随机梯度下降的早期停止

随机梯度下降的早期停止

20newgroups 上的多类别稀疏逻辑回归

20newgroups 上的多类别稀疏逻辑回归

使用多项式逻辑 + L1 的 MNIST 分类

使用多项式逻辑 + L1 的 MNIST 分类

保险索赔的 Tweedie 回归

保险索赔的 Tweedie 回归

使用显示对象的可视化

使用显示对象的可视化

异常值检测估计器的评估

异常值检测估计器的评估

使用可视化 API 的 ROC 曲线

使用可视化 API 的 ROC 曲线

介绍 set_output API

介绍 set_output API

混淆矩阵

成本敏感学习的决策阈值后调优

成本敏感学习的决策阈值后调优

检测错误权衡 (DET) 曲线

检测错误权衡 (DET) 曲线

带有交叉验证的网格搜索的自定义重新拟合策略

带有交叉验证的网格搜索的自定义重新拟合策略

类别似然比衡量分类性能

类别似然比衡量分类性能

精确率-召回率

精确率-召回率

多类别受试者工作特征 (ROC)

多类别受试者工作特征 (ROC)

模型正则化对训练和测试误差的影响

模型正则化对训练和测试误差的影响

使用分类器链进行多标签分类

使用分类器链进行多标签分类

最近邻分类

最近邻分类

比较有无邻域成分分析的最近邻

比较有无邻域成分分析的最近邻

使用邻域成分分析进行降维

使用邻域成分分析进行降维

多层感知器中的正则化变化

多层感知器中的正则化变化

MNIST 上 MLP 权重的可视化

MNIST 上 MLP 权重的可视化

用于数字分类的受限玻尔兹曼机特征

用于数字分类的受限玻尔兹曼机特征

特征离散化

特征离散化

将数据映射到正态分布

将数据映射到正态分布

特征缩放的重要性

特征缩放的重要性

目标编码器的内部交叉拟合

目标编码器的内部交叉拟合

scikit-learn 0.22 发布亮点

scikit-learn 0.22 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.7 发布亮点

scikit-learn 1.7 发布亮点

文本数据集上的半监督分类

文本数据集上的半监督分类

使用成本复杂度剪枝对决策树进行后剪枝

使用成本复杂度剪枝对决策树进行后剪枝

理解决策树结构

理解决策树结构