train_test_split#

sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)[source]#

将数组或矩阵拆分为随机训练集和测试子集。

一个快速工具函数，将输入验证、next(ShuffleSplit().split(X, y)) 以及对输入数据的应用封装成一个单行调用，用于将数据拆分（并可选地进行子采样）。

Read more in the User Guide.

参数:

*arrays具有相同长度/shape[0]的可索引序列: 允许的输入包括列表、numpy数组、scipy稀疏矩阵或pandas数据帧。
test_size浮点数或整数，默认值=None: 如果是浮点数，应介于0.0和1.0之间，表示用于测试拆分的数据集比例。如果是整数，表示测试样本的绝对数量。如果为None，则该值设置为训练大小的补集。如果train_size也为None，则默认设置为0.25。
train_sizefloat or int, default=None: 如果是浮点数，应介于0.0和1.0之间，表示用于训练拆分的数据集比例。如果是整数，表示训练样本的绝对数量。如果为None，则该值会自动设置为测试大小的补集。
random_stateint, RandomState instance or None, default=None: 控制在应用拆分之前对数据进行的洗牌。传入一个整数可以在多次函数调用中获得可重现的输出。请参阅词汇表。
shufflebool, default=True: 在拆分之前是否对数据进行洗牌。如果shuffle=False，则stratify必须为None。
stratifyarray-like，默认值=None: 如果不为None，则使用此作为类别标签，以分层方式拆分数据。在用户指南中了解更多信息。

返回:

splitting列表，长度=2 * len(arrays): 包含输入数据的训练集和测试集拆分的列表。

版本0.16中新增：如果输入是稀疏的，则输出将是scipy.sparse.csr_matrix。否则，输出类型与输入类型相同。

示例

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
       [0, 1],
       [6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
       [8, 9]])
>>> y_test
[1, 4]

>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]

>>> from sklearn import datasets
>>> iris = datasets.load_iris(as_frame=True)
>>> X, y = iris['data'], iris['target']
>>> X.head()
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2
>>> y.head()
0    0
1    0
2    0
3    0
4    0
...

>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.33, random_state=42)
...
>>> X_train.head()
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
96                 5.7               2.9                4.2               1.3
105                7.6               3.0                6.6               2.1
66                 5.6               3.0                4.5               1.5
0                  5.1               3.5                1.4               0.2
122                7.7               2.8                6.7               2.0
>>> y_train.head()
96     1
105    2
66     1
0      0
122    2
...
>>> X_test.head()
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
73                 6.1               2.8                4.7               1.2
18                 5.7               3.8                1.7               0.3
118                7.7               2.6                6.9               2.3
78                 6.0               2.9                4.5               1.5
76                 6.8               2.8                4.8               1.4
>>> y_test.head()
73     1
18     0
118    2
78     1
76     1
...

Gallery examples#

使用核 PCA 进行图像去噪

使用核 PCA 进行图像去噪

使用 eigenfaces 和 SVM 进行人脸识别示例

使用 eigenfaces 和 SVM 进行人脸识别示例

模型复杂度影响

模型复杂度影响

预测延迟

时间序列预测中的滞后特征

时间序列预测中的滞后特征

分类器的概率校准

分类器的概率校准

概率校准曲线

概率校准曲线

分类器校准比较

分类器校准比较

绘制分类概率

绘制分类概率

分类器比较

分类器比较

识别手写数字

识别手写数字

具有混合类型的列转换器

具有混合类型的列转换器

在回归模型中转换目标变量的效果

在回归模型中转换目标变量的效果

比较交叉分解方法

比较交叉分解方法

主成分回归 vs 偏最小二乘回归

主成分回归 vs 偏最小二乘回归

核 PCA

多类 AdaBoosted 决策树

多类 AdaBoosted 决策树

使用树集成进行特征转换

使用树集成进行特征转换

使用森林中的树进行特征重要性分析

使用森林中的树进行特征重要性分析

梯度提升中的早停

梯度提升中的早停

梯度提升袋外估计

梯度提升袋外估计

梯度提升回归的预测区间

梯度提升回归的预测区间

梯度提升回归

梯度提升回归

梯度提升正则化

梯度提升正则化

直方图梯度提升树中的特征

直方图梯度提升树中的特征

IsolationForest 示例

IsolationForest 示例

比较随机森林和多输出元估计器

比较随机森林和多输出元估计器

单变量特征选择

单变量特征选择

管道 ANOVA SVM

管道 ANOVA SVM

使用 FrozenEstimator 的示例

使用 FrozenEstimator 的示例

机器学习无法推断因果效应

机器学习无法推断因果效应

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

排列重要性 vs 随机森林特征重要性（MDI）

排列重要性 vs 随机森林特征重要性（MDI）

具有多重共线或相关特征的排列重要性

具有多重共线或相关特征的排列重要性

使用多项式核近似进行可扩展学习

使用多项式核近似进行可扩展学习

用于稀疏信号的 L1 模型

用于稀疏信号的 L1 模型

非负最小二乘法

非负最小二乘法

普通最小二乘法和岭回归

普通最小二乘法和岭回归

泊松回归和非正态损失

泊松回归和非正态损失

随机梯度下降的早停

随机梯度下降的早停

在 20newgroups 上进行多类稀疏逻辑回归

在 20newgroups 上进行多类稀疏逻辑回归

使用多项式逻辑 + L1 进行 MNIST 分类

使用多项式逻辑 + L1 进行 MNIST 分类

保险索赔上的 Tweedie 回归

保险索赔上的 Tweedie 回归

使用显示对象进行可视化

使用显示对象进行可视化

离群点检测估计器的评估

离群点检测估计器的评估

使用可视化 API 的 ROC 曲线

使用可视化 API 的 ROC 曲线

介绍 set_output API

介绍 set_output API

使用混淆矩阵评估分类器性能

使用混淆矩阵评估分类器性能

后验调整成本敏感学习的决策阈值

后验调整成本敏感学习的决策阈值

检测错误权衡（DET）曲线

检测错误权衡（DET）曲线

带有交叉验证的网格搜索的自定义重新拟合策略

带有交叉验证的网格搜索的自定义重新拟合策略

使用类别似然比衡量分类性能

使用类别似然比衡量分类性能

精确率-召回率

精确率-召回率

多类接收者操作特征（ROC）

多类接收者操作特征（ROC）

模型正则化对训练和测试误差的影响

模型正则化对训练和测试误差的影响

使用分类器链进行多标签分类

使用分类器链进行多标签分类

最近邻分类

最近邻分类

比较带和不带邻域成分分析的最近邻

比较带和不带邻域成分分析的最近邻

使用邻域成分分析进行降维

使用邻域成分分析进行降维

多层感知器中的不同正则化

多层感知器中的不同正则化

MNIST 上的 MLP 权重可视化

MNIST 上的 MLP 权重可视化

用于数字分类的受限玻尔兹曼机特征

用于数字分类的受限玻尔兹曼机特征

特征离散化

特征离散化

将数据映射到正态分布

将数据映射到正态分布

特征缩放的重要性

特征缩放的重要性

目标编码器的内部交叉拟合

目标编码器的内部交叉拟合

scikit-learn 0.22 发布亮点

scikit-learn 0.22 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.7 发布亮点

scikit-learn 1.7 发布亮点

文本数据集上的半监督分类

文本数据集上的半监督分类

使用成本复杂度剪枝对决策树进行后剪枝

使用成本复杂度剪枝对决策树进行后剪枝

理解决策树结构

理解决策树结构