卡方检验#
- sklearn.feature_selection.chi2(X, y)[source]#
- 计算每个非负特征与类别之间的卡方统计量。 - 此分数可用于从 X 中选择具有最高卡方检验统计量值的 - n_features个特征,X 必须仅包含**非负特征**,例如布尔值或频率(例如,文档分类中的词项计数),相对于类别。- 回想一下,卡方检验衡量随机变量之间的依赖关系,因此使用此函数可以“剔除”最可能与类别独立且因此与分类无关的特征。 - 在用户指南中了解更多信息。 - 参数:
- X形状为 (n_samples, n_features) 的{类数组,稀疏矩阵}
- 样本向量。 
- y形状为 (n_samples,) 的类数组
- 目标向量(类别标签)。 
 
- 返回值:
- chi2形状为 (n_features,) 的 ndarray
- 每个特征的卡方统计量。 
- p_values形状为 (n_features,) 的 ndarray
- 每个特征的 P 值。 
 
 - 另请参见 - f_classif
- 分类任务中标签/特征之间的 ANOVA F 值。 
- f_regression
- 回归任务中标签/特征之间的 F 值。 
 - 备注 - 此算法的复杂度为 O(n_classes * n_features)。 - 示例 - >>> import numpy as np >>> from sklearn.feature_selection import chi2 >>> X = np.array([[1, 1, 3], ... [0, 1, 5], ... [5, 4, 1], ... [6, 6, 2], ... [1, 4, 0], ... [0, 0, 0]]) >>> y = np.array([1, 1, 0, 0, 2, 2]) >>> chi2_stats, p_values = chi2(X, y) >>> chi2_stats array([15.3..., 6.5 , 8.9...]) >>> p_values array([0.0004..., 0.0387..., 0.0116... ]) 
 
    