train_test_split#
- sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)[source]#
将数组或矩阵拆分为随机的训练集和测试集。
一个快速实用的工具,它将输入验证、
next(ShuffleSplit().split(X, y))
和应用于输入数据的操作封装到单个调用中,用于将数据(以及可选的子采样)拆分为单行代码。更多信息请参见 用户指南。
- 参数:
- *arrays长度/shape[0]相同的可索引序列
允许的输入包括列表、NumPy数组、SciPy稀疏矩阵或Pandas DataFrame。
- test_size浮点数或整数,默认为None
如果为浮点数,则应在0.0到1.0之间,表示测试集在数据集中的比例。如果为整数,则表示测试样本的绝对数量。如果为None,则该值设置为训练大小的补集。如果
train_size
也为None,则将其设置为0.25。- train_size浮点数或整数,默认为None
如果为浮点数,则应在0.0到1.0之间,表示训练集在数据集中的比例。如果为整数,则表示训练样本的绝对数量。如果为None,则该值会自动设置为测试大小的补集。
- random_state整数、RandomState实例或None,默认为None
控制在应用分割之前应用于数据的混洗。传递一个整数以在多次函数调用中获得可重复的输出。参见 词汇表。
- shuffle布尔值,默认为True
是否在分割之前混洗数据。如果shuffle=False,则stratify必须为None。
- stratify类数组,默认为None
如果非None,则使用此作为类别标签以分层方式分割数据。在用户指南中了解更多信息。
- 返回值:
- splitting列表,长度=2 * len(arrays)
包含输入的训练-测试分割的列表。
版本 0.16 中新增: 如果输入是稀疏的,输出将是
scipy.sparse.csr_matrix
。否则,输出类型与输入类型相同。
示例
>>> import numpy as np >>> from sklearn.model_selection import train_test_split >>> X, y = np.arange(10).reshape((5, 2)), range(5) >>> X array([[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]) >>> list(y) [0, 1, 2, 3, 4]
>>> X_train, X_test, y_train, y_test = train_test_split( ... X, y, test_size=0.33, random_state=42) ... >>> X_train array([[4, 5], [0, 1], [6, 7]]) >>> y_train [2, 0, 3] >>> X_test array([[2, 3], [8, 9]]) >>> y_test [1, 4]
>>> train_test_split(y, shuffle=False) [[0, 1, 2], [3, 4]]
图库示例#
scikit-learn 1.5 版本亮点
scikit-learn 1.4 版本亮点
scikit-learn 0.24 版本亮点
scikit-learn 0.23 版本亮点
scikit-learn 0.22 版本亮点
分类器校准的比较
概率校准曲线
分类器的概率校准
分类器比较
识别手写数字
主成分回归与偏最小二乘回归的比较
使用成本复杂度剪枝的后剪枝决策树
理解决策树结构
核PCA
比较随机森林和多输出元估计器
梯度提升中的提前停止
使用树的森林进行特征重要性分析
使用树的集成进行特征转换
直方图梯度提升树中的特征
梯度提升包外估计
梯度提升回归
梯度提升正则化
IsolationForest 示例
多类 AdaBoosted 决策树
梯度提升回归的预测区间
使用特征脸和 SVM 的人脸识别示例
使用核 PCA 的图像去噪
时间序列预测的滞后特征
模型复杂度影响
预测延迟
管道 ANOVA SVM
单变量特征选择
使用 FrozenEstimator 的示例
比较各种在线求解器
随机梯度下降的提前停止
用于稀疏信号的基于 L1 的模型
使用多项式逻辑回归 + L1 的 MNIST 分类
在 20newgroups 上进行多类稀疏逻辑回归
非负最小二乘法
普通最小二乘法示例
泊松回归和非正态损失
保险索赔的 Tweedie 回归
线性模型系数解释中的常见陷阱
机器学习在推断因果效应方面的失败
置换重要性与随机森林特征重要性 (MDI) 的比较
具有多重共线性或相关特征的置换重要性
使用多项式核近似的可扩展学习
异常检测估计器的评估
介绍 set_output API
带有可视化 API 的 ROC 曲线
使用显示对象的可视化
类似度比用于衡量分类性能
混淆矩阵
使用交叉验证的网格搜索的自定义重拟合策略
检测错误权衡 (DET) 曲线
模型正则化对训练和测试误差的影响
多类接收器操作特征 (ROC)
针对成本敏感学习的后调整决策阈值
精确率-召回率
使用分类器链进行多标签分类
比较使用和不使用邻域成分分析的最近邻
使用邻域成分分析进行降维
最近邻分类
用于数字分类的受限玻尔兹曼机特征
多层感知器中正则化的变化
在 MNIST 上可视化 MLP 权重
具有混合类型的列转换器
在回归模型中转换目标的影响
特征离散化
特征缩放的重要性
将数据映射到正态分布
目标编码器的内部交叉拟合
文本数据集上的半监督分类