1.17. 神经网络模型(监督式学习)#
警告
此实现不适用于大规模应用。特别是,scikit-learn 不提供 GPU 支持。对于更快、基于 GPU 的实现,以及提供更大灵活性来构建深度学习架构的框架,请参阅相关项目。
1.17.1. 多层感知机#
多层感知机(Multi-layer Perceptron, MLP)是一种监督式学习算法,它通过在数据集上训练来学习一个函数 \(f: R^m \rightarrow R^o\),其中 \(m\) 是输入的维度数,\(o\) 是输出的维度数。给定一组特征 \(X = \{x_1, x_2, ..., x_m\}\) 和一个目标 \(y\),它可以学习一个用于分类或回归的非线性函数逼近器。它与逻辑回归的不同之处在于,在输入层和输出层之间,可以有一个或多个非线性层,称为隐藏层。图 1 展示了一个具有标量输出的单隐藏层 MLP。
图 1:单隐藏层 MLP。#
最左边的层,称为输入层,由一组表示输入特征的神经元 \(\{x_i | x_1, x_2, ..., x_m\}\) 组成。隐藏层中的每个神经元通过加权线性求和 \(w_1x_1 + w_2x_2 + ... + w_mx_m\),然后应用非线性激活函数 \(g(\cdot):R \rightarrow R\)(例如双曲正切函数)来转换前一层的值。输出层接收来自最后一个隐藏层的值并将其转换为输出值。
该模块包含公共属性 coefs_ 和 intercepts_。coefs_ 是一个权重矩阵列表,其中索引 \(i\) 处的权重矩阵表示第 \(i\) 层和第 \(i+1\) 层之间的权重。intercepts_ 是一个偏置向量列表,其中索引 \(i\) 处的向量表示添加到第 \(i+1\) 层的偏置值。
1.17.2. 分类#
类 MLPClassifier 实现了一个多层感知机(MLP)算法,该算法使用反向传播进行训练。
MLP 在两个数组上进行训练:大小为 (n_samples, n_features) 的数组 X,其中包含表示为浮点特征向量的训练样本;以及大小为 (n_samples,) 的数组 y,其中包含训练样本的目标值(类别标签)。
>>> from sklearn.neural_network import MLPClassifier
>>> X = [[0., 0.], [1., 1.]]
>>> y = [0, 1]
>>> clf = MLPClassifier(solver='lbfgs', alpha=1e-5,
... hidden_layer_sizes=(5, 2), random_state=1)
...
>>> clf.fit(X, y)
MLPClassifier(alpha=1e-05, hidden_layer_sizes=(5, 2), random_state=1,
solver='lbfgs')
拟合(训练)后,模型可以预测新样本的标签。
>>> clf.predict([[2., 2.], [-1., -2.]])
array([1, 0])
MLP 可以拟合训练数据的非线性模型。clf.coefs_ 包含构成模型参数的权重矩阵。
>>> [coef.shape for coef in clf.coefs_]
[(2, 5), (5, 2), (2, 1)]
目前,MLPClassifier 仅支持交叉熵损失函数,该函数允许通过运行 predict_proba 方法进行概率估计。
MLP 使用反向传播进行训练。更准确地说,它使用某种形式的梯度下降进行训练,并且梯度是使用反向传播计算的。对于分类,它最小化交叉熵损失函数,为每个样本 \(x\) 提供概率估计向量 \(P(y|x)\)。
>>> clf.predict_proba([[2., 2.], [1., 2.]])
array([[1.967e-04, 9.998e-01],
[1.967e-04, 9.998e-01]])
MLPClassifier 通过应用 Softmax 作为输出函数来支持多类别分类。
此外,该模型支持多标签分类,其中一个样本可以属于多个类别。对于每个类别,原始输出通过逻辑函数。大于或等于 0.5 的值四舍五入为 1,否则为 0。对于样本的预测输出,值为 1 的索引代表该样本被分配的类别。
>>> X = [[0., 0.], [1., 1.]]
>>> y = [[0, 1], [1, 1]]
>>> clf = MLPClassifier(solver='lbfgs', alpha=1e-5,
... hidden_layer_sizes=(15,), random_state=1)
...
>>> clf.fit(X, y)
MLPClassifier(alpha=1e-05, hidden_layer_sizes=(15,), random_state=1,
solver='lbfgs')
>>> clf.predict([[1., 2.]])
array([[1, 1]])
>>> clf.predict([[0., 0.]])
array([[0, 1]])
有关更多信息,请参阅下面的示例和 MLPClassifier.fit 的文档字符串。
示例
请参阅 MLP 权重在 MNIST 上的可视化 以查看训练权重的可视化表示。
1.17.3. 回归#
类 MLPRegressor 实现了一个多层感知机(MLP),该感知机使用反向传播进行训练,输出层没有激活函数,这也可以看作是使用恒等函数作为激活函数。因此,它使用平方误差作为损失函数,输出是一组连续值。
MLPRegressor 也支持多输出回归,其中一个样本可以有多个目标。
1.17.4. 正则化#
MLPRegressor 和 MLPClassifier 都使用参数 alpha 进行正则化(L2 正则化)项,这有助于通过惩罚大权重的权重来避免过拟合。下图显示了决策函数随 alpha 值变化的情况。
有关更多信息,请参阅下面的示例。
示例
1.17.5. 算法#
MLP 使用随机梯度下降、Adam 或 L-BFGS 进行训练。随机梯度下降(SGD)使用损失函数相对于需要调整的参数的梯度来更新参数,即
其中 \(\eta\) 是学习率,它控制参数空间搜索中的步长。\(Loss\) 是网络使用的损失函数。
有关更多详细信息,请参阅 SGD 的文档。
Adam 在某种意义上与 SGD 相似,它也是一种随机优化器,但它可以根据对低阶矩的自适应估计自动调整参数更新量。
使用 SGD 或 Adam,训练支持在线学习和 mini-batch 学习。
L-BFGS 是一种求解器,它近似于 Hessian 矩阵,该矩阵表示函数的二阶偏导数。它进一步近似 Hessian 矩阵的逆矩阵以执行参数更新。此实现使用 Scipy 版本的 L-BFGS。
如果选择的求解器是 ‘L-BFGS’,则训练不支持在线学习或 mini-batch 学习。
1.17.6. 复杂度#
假设有 \(n\) 个训练样本,\(m\) 个特征,\(k\) 个隐藏层,每个隐藏层包含 \(h\) 个神经元(为简单起见),以及 \(o\) 个输出神经元。反向传播的时间复杂度为 \(O(i \cdot n \cdot (m \cdot h + (k - 1) \cdot h \cdot h + h \cdot o))\),其中 \(i\) 是迭代次数。由于反向传播具有较高的计算复杂度,建议在训练时从较少的隐藏神经元和较少的隐藏层开始。
数学公式#
给定一组训练样本 \(\{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}\),其中 \(x_i \in \mathbf{R}^n\) 且 \(y_i \in \{0, 1\}\),一个单隐藏层单隐藏神经元的 MLP 学习函数 \(f(x) = W_2 g(W_1^T x + b_1) + b_2\),其中 \(W_1 \in \mathbf{R}^m\) 且 \(W_2, b_1, b_2 \in \mathbf{R}\) 是模型参数。\(W_1, W_2\) 分别表示输入层和隐藏层的权重;\(b_1, b_2\) 分别表示添加到隐藏层和输出层的偏置。\(g(\cdot) : R \rightarrow R\) 是激活函数,默认设置为双曲正切。它的表达式为,
对于二元分类,\(f(x)\) 通过逻辑函数 \(g(z)=1/(1+e^{-z})\) 以获得零到一之间的输出值。一个阈值(设置为 0.5)将输出大于或等于 0.5 的样本分配给正类别,其余分配给负类别。
如果多于两个类别,\(f(x)\) 本身将是一个大小为 (n_classes,) 的向量。它不是通过逻辑函数,而是通过 softmax 函数,其表达式为,
其中 \(z_i\) 表示 softmax 输入的第 \(i\) 个元素,对应于类别 \(i\),\(K\) 是类别数。结果是一个向量,包含样本 \(x\) 属于每个类别的概率。输出是概率最高的类别。
在回归中,输出仍然是 \(f(x)\);因此,输出激活函数只是恒等函数。
MLP 根据问题类型使用不同的损失函数。分类的损失函数是平均交叉熵,在二元情况下其表达式为,
其中 \(\alpha ||W||_2^2\) 是一个 L2 正则化项(又称惩罚项),它惩罚复杂的模型;\(\alpha > 0\) 是一个控制惩罚大小的非负超参数。
对于回归,MLP 使用均方误差损失函数;其表达式为,
从初始随机权重开始,多层感知机(MLP)通过重复更新这些权重来最小化损失函数。计算损失后,反向传播将损失从输出层传播到前一层,为每个权重参数提供一个旨在减少损失的更新值。
在梯度下降中,计算损失相对于权重的梯度 \(\nabla Loss_{W}\) 并从 \(W\) 中减去。更正式地表达为,
其中 \(i\) 是迭代步骤,\(\epsilon\) 是学习率,其值大于 0。
当达到预设的最大迭代次数时;或者当损失的改善低于某个很小的数字时,算法停止。
1.17.7. 实际使用技巧#
多层感知机对特征缩放很敏感,因此强烈建议缩放数据。例如,将输入向量 X 中的每个属性缩放到 [0, 1] 或 [-1, +1],或者将其标准化为均值 0 和方差 1。请注意,您必须对测试集应用相同的缩放才能获得有意义的结果。您可以使用
StandardScaler进行标准化。>>> from sklearn.preprocessing import StandardScaler >>> scaler = StandardScaler() >>> # Don't cheat - fit only on training data >>> scaler.fit(X_train) >>> X_train = scaler.transform(X_train) >>> # apply same transformation to test data >>> X_test = scaler.transform(X_test)
另一种推荐的方法是在
Pipeline中使用StandardScaler。找到合理的正则化参数 \(\alpha\) 最好使用
GridSearchCV完成,通常范围为10.0 ** -np.arange(1, 7)。根据经验,我们观察到
L-BFGS在小型数据集上收敛更快且具有更好的解。然而,对于相对较大的数据集,Adam非常稳健。它通常收敛迅速并提供相当不错的性能。另一方面,如果学习率调整得当,带有动量或 Nesterov 动量的SGD可能比这两种算法表现更好。
1.17.8. 使用 warm_start 进行更多控制#
如果您希望对 SGD 中的停止标准或学习率进行更多控制,或者希望进行额外的监控,使用 warm_start=True 和 max_iter=1 并自行迭代可能会有所帮助。
>>> X = [[0., 0.], [1., 1.]]
>>> y = [0, 1]
>>> clf = MLPClassifier(hidden_layer_sizes=(15,), random_state=1, max_iter=1, warm_start=True)
>>> for i in range(10):
... clf.fit(X, y)
... # additional monitoring / inspection
MLPClassifier(...
参考文献#
“Learning representations by back-propagating errors.” Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams.
“Stochastic Gradient Descent” L. Bottou - Website, 2010.
“Backpropagation” Andrew Ng, Jiquan Ngiam, Chuan Yu Foo, Yifan Mai, Caroline Suen - Website, 2011.
“Efficient BackProp” Y. LeCun, L. Bottou, G. Orr, K. Müller - In Neural Networks: Tricks of the Trade 1998.
“Adam: A method for stochastic optimization.” Kingma, Diederik, and Jimmy Ba (2014)