TimeSeriesSplit#

class sklearn.model_selection.TimeSeriesSplit(n_splits=5, *, max_train_size=None, test_size=None, gap=0)[源代码]#

时间序列交叉验证器。

提供训练/测试索引以分割按时间顺序排列的数据，因为其他交叉验证方法不适用，因为它们会导致在未来数据上训练并在过去数据上评估。为了确保各折之间的指标具有可比性，样本必须等间距。一旦满足此条件，每个测试集覆盖相同的时间持续时间，而训练集大小则累积来自先前分割的数据。

此交叉验证对象是 KFold 的变体。在第 k 次分割中，它返回前 k 个折叠作为训练集，第 (k+1) 个折叠作为测试集。

请注意，与标准交叉验证方法不同，连续的训练集是其之前训练集的超集。

在用户指南中阅读更多内容。

有关交叉验证行为的可视化以及常见 scikit-learn 拆分方法的比较，请参阅scikit-learn 中的交叉验证行为可视化

版本 0.18 新增。

参数:

n_splitsint, default=5: 分割次数。必须至少为2。

版本 0.22 中已更改： n_splits 的默认值从 3 更改为 5。
max_train_sizeint, 默认=None: 单个训练集的最大大小。
test_sizeint, 默认=None: 用于限制测试集的大小。默认为 n_samples // (n_splits + 1)，这是在 gap=0 时允许的最大值。

0.24 版本新增。
gapint, 默认=0: 在测试集之前，从每个训练集的末尾排除的样本数量。

0.24 版本新增。

注意事项

在第 i 次分割中，训练集的大小为 i * n_samples // (n_splits + 1) + n_samples % (n_splits + 1)，测试集默认大小为 n_samples//(n_splits + 1)，其中 n_samples 是样本数量。请注意，此公式仅在 test_size 和 max_train_size 保持默认值时有效。

示例

>>> import numpy as np
>>> from sklearn.model_selection import TimeSeriesSplit
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> tscv = TimeSeriesSplit()
>>> print(tscv)
TimeSeriesSplit(gap=0, max_train_size=None, n_splits=5, test_size=None)
>>> for i, (train_index, test_index) in enumerate(tscv.split(X)):
...     print(f"Fold {i}:")
...     print(f"  Train: index={train_index}")
...     print(f"  Test:  index={test_index}")
Fold 0:
  Train: index=[0]
  Test:  index=[1]
Fold 1:
  Train: index=[0 1]
  Test:  index=[2]
Fold 2:
  Train: index=[0 1 2]
  Test:  index=[3]
Fold 3:
  Train: index=[0 1 2 3]
  Test:  index=[4]
Fold 4:
  Train: index=[0 1 2 3 4]
  Test:  index=[5]
>>> # Fix test_size to 2 with 12 samples
>>> X = np.random.randn(12, 2)
>>> y = np.random.randint(0, 2, 12)
>>> tscv = TimeSeriesSplit(n_splits=3, test_size=2)
>>> for i, (train_index, test_index) in enumerate(tscv.split(X)):
...     print(f"Fold {i}:")
...     print(f"  Train: index={train_index}")
...     print(f"  Test:  index={test_index}")
Fold 0:
  Train: index=[0 1 2 3 4 5]
  Test:  index=[6 7]
Fold 1:
  Train: index=[0 1 2 3 4 5 6 7]
  Test:  index=[8 9]
Fold 2:
  Train: index=[0 1 2 3 4 5 6 7 8 9]
  Test:  index=[10 11]
>>> # Add in a 2 period gap
>>> tscv = TimeSeriesSplit(n_splits=3, test_size=2, gap=2)
>>> for i, (train_index, test_index) in enumerate(tscv.split(X)):
...     print(f"Fold {i}:")
...     print(f"  Train: index={train_index}")
...     print(f"  Test:  index={test_index}")
Fold 0:
  Train: index=[0 1 2 3]
  Test:  index=[6 7]
Fold 1:
  Train: index=[0 1 2 3 4 5]
  Test:  index=[8 9]
Fold 2:
  Train: index=[0 1 2 3 4 5 6 7]
  Test:  index=[10 11]

有关更详细的示例，请参阅时间相关特征工程。

get_metadata_routing()[源代码]#

获取此对象的元数据路由。

请查阅用户指南，了解路由机制如何工作。

返回:

routingMetadataRequest: 封装路由信息的 MetadataRequest。

get_n_splits(X=None, y=None, groups=None)[源代码]#

返回在实例化交叉验证器时使用 n_splits 参数设置的拆分迭代次数。

参数:

Xarray-like of shape (n_samples, n_features), default=None: 始终忽略，存在是为了保持 API 兼容性。
yshape 为 (n_samples,), default=None 的 array-like: 始终忽略，存在是为了保持 API 兼容性。
groups形状为 (n_samples,) 的类数组对象，默认=None: 始终忽略，存在是为了保持 API 兼容性。

返回:

n_splitsint: 返回交叉验证器中的拆分迭代次数。

split(X, y=None, groups=None)[源代码]#

生成索引以将数据拆分为训练集和测试集。

参数:

Xshape 为 (n_samples, n_features) 的 array-like: 训练数据，其中 n_samples 是样本数，n_features 是特征数。
yshape 为 (n_samples,), default=None 的 array-like: 始终忽略，存在是为了保持 API 兼容性。
groups形状为 (n_samples,) 的类数组对象，默认=None: 始终忽略，存在是为了保持 API 兼容性。

生成: