卡方检验#

sklearn.feature_selection.chi2(X, y)[source]#

计算每个非负特征与类别之间的卡方统计量。

此分数可用于从 X 中选择具有最高卡方检验统计量值的 n_features 个特征，X 必须仅包含**非负特征**，例如布尔值或频率（例如，文档分类中的词项计数），相对于类别。

回想一下，卡方检验衡量随机变量之间的依赖关系，因此使用此函数可以“剔除”最可能与类别独立且因此与分类无关的特征。

在用户指南中了解更多信息。

参数：

X形状为 (n_samples, n_features) 的{类数组，稀疏矩阵}: 样本向量。
y形状为 (n_samples,) 的类数组: 目标向量（类别标签）。

返回值：

chi2形状为 (n_features,) 的 ndarray: 每个特征的卡方统计量。
p_values形状为 (n_features,) 的 ndarray: 每个特征的 P 值。

另请参见

f_classif: 分类任务中标签/特征之间的 ANOVA F 值。
f_regression: 回归任务中标签/特征之间的 F 值。

备注

此算法的复杂度为 O(n_classes * n_features)。

示例

>>> import numpy as np
>>> from sklearn.feature_selection import chi2
>>> X = np.array([[1, 1, 3],
...               [0, 1, 5],
...               [5, 4, 1],
...               [6, 6, 2],
...               [1, 4, 0],
...               [0, 0, 0]])
>>> y = np.array([1, 1, 0, 0, 2, 2])
>>> chi2_stats, p_values = chi2(X, y)
>>> chi2_stats
array([15.3...,  6.5       ,  8.9...])
>>> p_values
array([0.0004..., 0.0387..., 0.0116... ])

图库示例#

混合类型的列转换器