1.13. 特征选择#

sklearn.feature_selection 模块中的类可用于对样本集进行特征选择/降维,以提高估计器的准确率得分或提高它们在非常高维数据集上的性能。

1.13.1. 移除低方差特征#

VarianceThreshold 是一种简单且基本的特征选择方法。它会移除所有方差不满足某个阈值的特征。默认情况下,它会移除所有零方差特征,即在所有样本中具有相同值的特征。

例如,假设我们有一个包含布尔特征的数据集,我们想要移除在超过 80% 的样本中为 1 或 0(开或关)的所有特征。布尔特征是伯努利随机变量,此类变量的方差由下式给出

\[\mathrm{Var}[X] = p(1 - p)\]

因此,我们可以使用阈值 .8 * (1 - .8) 进行选择

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
>>> sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
>>> sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

正如预期的那样,VarianceThreshold 移除第一列,因为该列包含 0 的概率为 \(p = 5/6 > .8\)

1.13.2. 单变量特征选择#

单变量特征选择通过基于单变量统计检验选择最佳特征来工作。它可以被视为估计器的预处理步骤。Scikit-learn 将特征选择例程公开为实现 transform 方法的对象

  • SelectKBest 会移除除得分最高的 \(k\) 个特征以外的所有特征

  • SelectPercentile 会移除除用户指定的得分最高的百分比特征以外的所有特征

  • 使用每个特征的常见单变量统计检验:假阳性率 SelectFpr、假发现率 SelectFdr 或族式错误率 SelectFwe

  • GenericUnivariateSelect 允许使用可配置的策略执行单变量特征选择。这允许使用超参数搜索估计器选择最佳单变量选择策略。

例如,我们可以使用 F 检验来检索数据集的两个最佳特征,如下所示

>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectKBest
>>> from sklearn.feature_selection import f_classif
>>> X, y = load_iris(return_X_y=True)
>>> X.shape
(150, 4)
>>> X_new = SelectKBest(f_classif, k=2).fit_transform(X, y)
>>> X_new.shape
(150, 2)

这些对象将评分函数作为输入,该函数返回单变量得分和 p 值(或仅针对 SelectKBestSelectPercentile 返回得分)

基于 F 检验的方法估计了两个随机变量之间线性依赖的程度。另一方面,互信息方法可以捕获任何类型的统计依赖关系,但由于是非参数的,它们需要更多样本才能进行准确估计。请注意,\(\chi^2\) 检验应该只应用于非负特征,例如频率。

警告

注意不要将回归评分函数与分类问题一起使用,您将获得无用的结果。

注意

SelectPercentileSelectKBest 也支持无监督特征选择。需要提供一个 score_func,其中 y=None。该 score_func 应该在内部使用 X 来计算分数。

示例

1.13.3. 递归特征消除#

给定一个为特征分配权重的外部估计器(例如,线性模型的系数),递归特征消除 (RFE) 的目标是通过递归地考虑越来越小的特征集来选择特征。首先,估计器在初始特征集上进行训练,并通过任何特定属性(例如 coef_feature_importances_)或可调用对象获得每个特征的重要性。然后,从当前特征集中修剪掉最不重要的特征。该过程在修剪后的集合上递归重复,直到最终达到要选择的特征数量。

RFECV 在交叉验证循环中执行 RFE,以找到最佳特征数量。更详细地说,通过在不同的交叉验证拆分(由 cv 参数提供)上拟合 RFE 选择器来自动调整选择的特征数量。使用 scorer 评估 RFE 选择器的性能,用于不同数量的选定特征,并将其汇总在一起。最后,将分数在折叠中平均,并将选择的特征数量设置为使交叉验证分数最大化的特征数量。

示例

1.13.4. 使用 SelectFromModel 进行特征选择#

SelectFromModel 是一个元转换器,可以与任何估计器一起使用,该估计器通过特定属性(例如 coef_feature_importances_)或通过拟合后的 importance_getter 可调用对象为每个特征分配重要性。如果特征值的对应重要性低于提供的 threshold 参数,则认为这些特征不重要并将其删除。除了以数字方式指定阈值之外,还有一些内置启发式方法可以使用字符串参数来查找阈值。可用的启发式方法是“mean”、“median”以及这些方法的浮点倍数,例如“0.1*mean”。结合 threshold 标准,可以使用 max_features 参数来设置要选择的特征数量的限制。

有关如何使用它的示例,请参阅以下部分。

示例

1.13.4.1. 基于 L1 的特征选择#

使用 L1 范数进行惩罚的 线性模型 具有稀疏解:它们估计的许多系数为零。当目标是减少数据的维数以与另一个分类器一起使用时,它们可以与 SelectFromModel 一起使用来选择非零系数。特别是,适用于此目的的稀疏估计器是用于回归的 Lasso,以及用于分类的 LogisticRegressionLinearSVC

>>> from sklearn.svm import LinearSVC
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> X, y = load_iris(return_X_y=True)
>>> X.shape
(150, 4)
>>> lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
>>> model = SelectFromModel(lsvc, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape
(150, 3)

对于 SVM 和逻辑回归,参数 C 控制稀疏性:C 越小,选择的特征越少。对于 Lasso,alpha 参数越高,选择的特征越少。

示例

L1 恢复和压缩感知#

对于 alpha 的良好选择,Lasso 可以仅使用少量观测值完全恢复非零变量的精确集合,前提是满足某些特定条件。特别是,样本数量应该“足够大”,否则 L1 模型将随机执行,其中“足够大”取决于非零系数的数量、特征数量的对数、噪声量、非零系数的最小绝对值以及设计矩阵 X 的结构。此外,设计矩阵必须显示某些特定属性,例如不要过于相关。

没有选择 alpha 参数以恢复非零系数的通用规则。它可以通过交叉验证 (LassoCVLassoLarsCV) 来设置,尽管这可能会导致模型欠惩罚:包含少量不相关变量不会损害预测分数。BIC (LassoLarsIC) 往往相反,会设置 alpha 的高值。

参考文献

Richard G. Baraniuk “压缩感知”, IEEE 信号处理杂志 [120] 2007 年 7 月 http://users.isr.ist.utl.pt/~aguiar/CS_notes.pdf

1.13.4.2. 基于树的特征选择#

基于树的估计器(参见 sklearn.tree 模块和 sklearn.ensemble 模块中的树林)可用于计算基于杂质的特征重要性,进而可用于丢弃无关特征(与 SelectFromModel 元转换器结合使用)。

>>> from sklearn.ensemble import ExtraTreesClassifier
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> X, y = load_iris(return_X_y=True)
>>> X.shape
(150, 4)
>>> clf = ExtraTreesClassifier(n_estimators=50)
>>> clf = clf.fit(X, y)
>>> clf.feature_importances_  
array([ 0.04...,  0.05...,  0.4...,  0.4...])
>>> model = SelectFromModel(clf, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape               
(150, 2)

示例

1.13.5. 顺序特征选择#

顺序特征选择 [sfs] (SFS) 在 SequentialFeatureSelector 转换器中可用。SFS 可以是正向或反向的。

正向-SFS 是一种贪婪过程,它迭代地找到要添加到已选特征集中的最佳新特征。具体来说,我们最初从零个特征开始,找到一个特征,当估计器在此单个特征上训练时,它可以最大化交叉验证得分。一旦选择了第一个特征,我们就通过向已选特征集添加一个新特征来重复该过程。当达到所需的已选特征数量时,该过程停止,这由 n_features_to_select 参数确定。

反向-SFS 遵循相同的思路,但以相反的方向工作:我们不是从零个特征开始贪婪地添加特征,而是从所有特征开始,贪婪地从特征集中删除特征。 direction 参数控制使用正向还是反向 SFS。

关于顺序特征选择的详细信息#

一般来说,正向和反向选择不会产生等效的结果。此外,根据请求的已选特征数量,一个可能比另一个快得多:如果我们有 10 个特征并要求 7 个已选特征,则正向选择需要执行 7 次迭代,而反向选择只需要执行 3 次迭代。

SFS 与 RFESelectFromModel 的区别在于它不需要底层模型公开 coef_feature_importances_ 属性。但是,考虑到需要评估更多模型,与其他方法相比,它可能更慢。例如,在反向选择中,从 m 个特征到 m - 1 个特征的迭代使用 k 折交叉验证需要拟合 m * k 个模型,而 RFE 只需要一次拟合,而 SelectFromModel 始终只进行一次拟合,不需要迭代。

参考文献

示例

1.13.6. 特征选择作为管道的一部分#

特征选择通常用作在进行实际学习之前的预处理步骤。在 scikit-learn 中,推荐的方法是使用 Pipeline

clf = Pipeline([
  ('feature_selection', SelectFromModel(LinearSVC(penalty="l1"))),
  ('classification', RandomForestClassifier())
])
clf.fit(X, y)

在此代码段中,我们使用 LinearSVCSelectFromModel 结合使用来评估特征重要性并选择最相关的特征。然后,在转换后的输出上训练 RandomForestClassifier,即仅使用相关特征。当然,您可以对其他特征选择方法和提供评估特征重要性方法的分类器执行类似的操作。有关更多详细信息,请参见 Pipeline 示例。