神经网络cost函数_神经网络相关名词解释

① 【神经网络原理】如何利用梯度下降法更新权重与偏置

损失函数的值减小，意味着神经网络的预测值（实际输出）和标签值（预期的输出）越接近。
损失函数通常为 多元函数 ，其自变量包括网络中包含的所有的权重w、以及所有的偏置b，有的地方也将其称作代价函数(Cost function)或价值函数(Value function)，这里只介绍均方误差损失函数(MSE)：

多元函数的梯度类似于一元函数导数 ：对多元函数各变量依次求一阶偏导，然后将各偏导值组合成一个一维列向量，就得到了该多元函数梯度。损失函数通常为 多元函数 ，其梯度如下：

对于神经网络结构 & 符号约定有疑惑的可以参考我的这篇文章—— 【神经网络原理】神经网络结构 & 符号约定

梯度的负方向 ：因为梯度是一个向量，具有方向性。这里的下降是指损失函数值的减小。
那么为什么沿梯度的负方向损失函数值减小最快呢？这里主要利用 多元函数的一阶泰勒展开 （一阶形式还是比较简单的）和 向量点积公式 来证明：

这里只给出了第 l 层的网络参数——权重(矩阵)与偏置(向量)的梯度下降更新公式，其他层网络参数的更新公式同理可得，对符号有疑惑的请参考：【神经网络原理】神经网络结构 & 符号约定。

有了各层网络参数(向量/矩阵)的更新公式，其中损失函数对各参数的梯度又该如何求解呢？事实上由于神经网络中参数(权重W和偏置b)通常较多，要想直接求解损失函数对这些参数的梯度，难度极大，所以在实际训练网络时，我们通常采用 反向误差传播，即BP算法 ，巧妙地利用预测值与标签值的残差，从输出层到输入层反向地求解出损失函数对各层网络参数的梯度。

② 一文读懂神经网络

要说近几年最引人注目的技术，无疑的，非人工智能莫属。无论你是否身处科技互联网行业，随处可见人工智能的身影：从 AlphaGo 击败世界围棋冠军，到无人驾驶概念的兴起，再到科技巨头 All in AI，以及各大高校向社会输送海量的人工智能专业的毕业生。以至于人们开始萌生一个想法：新的革命就要来了，我们的世界将再次发生一次巨变；而后开始焦虑：我的工作是否会被机器取代？我该如何才能抓住这次革命？

人工智能背后的核心技术是深度神经网络（Deep Neural Network），大概是一年前这个时候，我正在回老家的高铁上学习 3Blue1Brown 的 Neural Network 系列视频课程，短短 4 集 60 多分钟的时间，就把神经网络从 High Level 到推导细节说得清清楚楚，当时的我除了获得新知的兴奋之外，还有一点新的认知，算是给头脑中的革命性的技术泼了盆冷水：神经网络可以解决一些复杂的、以前很难通过写程序来完成的任务——例如图像、语音识别等，但它的实现机制告诉我，神经网络依然没有达到生物级别的智能，短期内期待它来取代人也是不可能的。

一年后的今天，依然在这个春运的时间点，将我对神经网络的理解写下来，算是对这部分知识的一个学习笔记，运气好的话，还可以让不了解神经网络的同学了解起来。

维基网络这样解释神经网络：

这个定义比较宽泛，你甚至还可以用它来定义其它的机器学习算法，例如之前我们一起学习的逻辑回归和 GBDT 决策树。下面我们具体一点，下图是一个逻辑回归的示意图：

其中 x1 和 x2 表示输入，w1 和 w2 是模型的参数，z 是一个线性函数：

接着我们对 z 做一个 sigmod 变换（图中蓝色圆），得到输出 y：

其实，上面的逻辑回归就可以看成是一个只有 1 层 输入层 ， 1 层 输出层 的神经网络，图中容纳数字的圈儿被称作 神经元 ；其中，层与层之间的连接 w1、w2 以及 b，是这个 神经网络的参数 ，层之间如果每个神经元之间都保持着连接，这样的层被称为 全连接层 （Full Connection Layer），或 稠密层 （Dense Layer）；此外，sigmoid 函数又被称作 激活函数 （Activation Function），除了 sigmoid 外，常用的激活函数还有 ReLU、tanh 函数等，这些函数都起到将线性函数进行非线性变换的作用。我们还剩下一个重要的概念： 隐藏层 ，它需要把 2 个以上的逻辑回归叠加起来加以说明：

如上图所示，除输入层和输出层以外，其他的层都叫做 隐藏层 。如果我们多叠加几层，这个神经网络又可以被称作 深度神经网络 （Deep Neural Network），有同学可能会问多少层才算“深”呢？这个没有绝对的定论，个人认为 3 层以上就算吧：）

以上，便是神经网络，以及神经网络中包含的概念，可见，神经网络并不特别，广义上讲，它就是

可见，神经网络和人脑神经也没有任何关联，如果我们说起它的另一个名字—— 多层感知机（Mutilayer Perceptron） ，就更不会觉得有多么玄乎了，多层感知机创造于 80 年代，可为什么直到 30 年后的今天才爆发呢？你想得没错，因为改了个名字……开个玩笑；实际上深度学习这项技术也经历过很长一段时间的黑暗低谷期，直到人们开始利用 GPU 来极大的提升训练模型的速度，以及几个标志性的事件：如 AlphaGo战胜李世石、Google 开源 TensorFlow 框架等等，感兴趣的同学可以翻一下这里的历史。

就拿上图中的 3 个逻辑回归组成的神经网络作为例子，它和普通的逻辑回归比起来，有什么优势呢？我们先来看下单逻辑回归有什么劣势，对于某些情况来说，逻辑回归可能永远无法使其分类，如下面数据：

这 4 个样本画在坐标系中如下图所示

因为逻辑回归的决策边界（Decision Boundary）是一条直线，所以上图中的两个分类，无论你怎么做，都无法找到一条直线将它们分开，但如果借助神经网络，就可以做到这一点。

由 3 个逻辑回归组成的网络（这里先忽略 bias）如下：

观察整个网络的计算过程，在进入输出层之前，该网络所做的计算实际上是：

即把输入先做了一次线性变换（Linear Transformation），得到 [z1, z2] ，再把 [z1, z2] 做了一个非线性变换（sigmoid），得到 [x1', x2'] ，（线性变换的概念可以参考这个视频）。从这里开始，后面的操作就和一个普通的逻辑回归没有任何差别了，所以它们的差异在于：我们的数据在输入到模型之前，先做了一层特征变换处理（Feature Transformation，有时又叫做特征抽取 Feature Extraction），使之前不可能被分类的数据变得可以分类了。

我们继续来看下特征变换的效果，假设为，带入上述公式，算出 4 个样本对应的 [x1', x2'] 如下：

再将变换后的 4 个点绘制在坐标系中：

显然，在做了特征变换之后，这两个分类就可以很容易的被一条决策边界分开了。

所以， 神经网络的优势在于，它可以帮助我们自动的完成特征变换或特征提取 ，尤其对于声音、图像等复杂问题，因为在面对这些问题时，人们很难清晰明确的告诉你，哪些特征是有用的。

在解决特征变换的同时，神经网络也引入了新的问题，就是我们需要设计各式各样的网络结构来针对性的应对不同的场景，例如使用卷积神经网络（CNN）来处理图像、使用长短期记忆网络（LSTM）来处理序列问题、使用生成式对抗网络（GAN）来写诗和作图等，就连去年自然语言处理（NLP）中取得突破性进展的 Transformer/Bert 也是一种特定的网络结构。所以， 学好神经网络，对理解其他更高级的网络结构也是有帮助的 。

上面说了，神经网络可以看作一个非线性函数，该函数的参数是连接神经元的所有的 Weights 和 Biases，该函数可以简写为 f(W, B) ，以手写数字识别的任务作为例子：识别 MNIST 数据集中的数字，数据集（MNIST 数据集是深度学习中的 HelloWorld）包含上万张不同的人写的数字图片，共有 0-9 十种数字，每张图片为 28*28=784 个像素，我们设计一个这样的网络来完成该任务：

把该网络函数所具备的属性补齐：

接下来的问题是，这个函数是如何产生的？这个问题本质上问的是这些参数的值是怎么确定的。

在机器学习中，有另一个函数 c 来衡量 f 的好坏，c 的参数是一堆数据集，你输入给 c 一批 Weights 和 Biases，c 输出 Bad 或 Good，当结果是 Bad 时，你需要继续调整 f 的 Weights 和 Biases，再次输入给 c，如此往复，直到 c 给出 Good 为止，这个 c 就是损失函数 Cost Function（或 Loss Function）。在手写数字识别的列子中，c 可以描述如下：

可见，要完成手写数字识别任务，只需要调整这 12730 个参数，让损失函数输出一个足够小的值即可，推而广之，绝大部分神经网络、机器学习的问题，都可以看成是定义损失函数、以及参数调优的问题。

在手写识别任务中，我们既可以使用交叉熵（Cross Entropy）损失函数，也可以使用 MSE（Mean Squared Error）作为损失函数，接下来，就剩下如何调优参数了。

神经网络的参数调优也没有使用特别的技术，依然是大家刚接触机器学习，就学到的梯度下降算法，梯度下降解决了上面迭代过程中的遗留问题——当损失函数给出 Bad 结果时，如何调整参数，能让 Loss 减少得最快。

梯度可以理解为：

把 Loss 对应到 H，12730 个参数对应到 (x,y)，则 Loss 对所有参数的梯度可以表示为下面向量，该向量的长度为 12730：
$$
abla L(w,b) = left[

frac{partial L}{partial w_1},
frac{partial L}{partial w_2},...,
frac{partial L}{partial b_{26}}

ight] ^ op
$$
所以，每次迭代过程可以概括为

用梯度来调整参数的式子如下（为了简化，这里省略了 bias）：

上式中，是学习率，意为每次朝下降最快的方向前进一小步，避免优化过头（Overshoot）。

由于神经网络参数繁多，所以需要更高效的计算梯度的算法，于是，反向传播算法（Backpropagation）呼之欲出。

在学习反向传播算法之前，我们先复习一下微积分中的链式法则（Chain Rule）：设 g = u(h) ， h = f(x) 是两个可导函数，x 的一个很小的变化 △x 会使 h 产生一个很小的变化 △h，从而 g 也产生一个较小的变化 △g，现要求 △g/△x，可以使用链式法则：

有了以上基础，理解反向传播算法就简单了。

假设我们的演示网络只有 2 层，输入输出都只有 2 个神经元，如下图所示：

其中是输入，是输出，是样本的目标值，这里使用的损失函数 L 为 MSE；图中的上标 (1) 或 (2) 分别表示参数属于第 (1) 层或第 (2) 层，下标 1 或 2 分别表示该层的第 1 或第 2 个神经元。

现在我们来计算和，掌握了这 2 个参数的偏导数计算之后，整个梯度的计算就掌握了。

所谓反向传播算法，指的是从右向左来计算每个参数的偏导数，先计算，根据链式法则

对左边项用链式法则展开

又是输出值，可以直接通过 MSE 的导数算出：

而，则就是 sigmoid 函数的导数在处的值，即

于是就算出来了：

再来看这一项，因为

所以

注意：上面式子对于所有的和都成立，且结果非常直观，即对的偏导为左边的输入的大小；同时，这里还隐含着另一层意思：需要调整哪个来影响，才能使 Loss 下降得最快，从该式子可以看出，当然是先调整较大的值所对应的，效果才最显著。

于是，最后一层参数的偏导数就算出来了

我们再来算上一层的，根据链式法则：

继续展开左边这一项

你发现没有，这几乎和计算最后一层一摸一样，但需要注意的是，这里的对 Loss 造成的影响有多条路径，于是对于只有 2 个输出的本例来说：

上式中，都已经在最后一层算出，下面我们来看下，因为

于是

同理

注意：这里也引申出梯度下降的调参直觉：即要使 Loss 下降得最快，优先调整 weight 值比较大的 weight。

至此，也算出来了

观察上式， 所谓每个参数的偏导数，通过反向传播算法，都可以转换成线性加权（Weighted Sum）计算 ，归纳如下：

式子中 n 代表分类数，(l) 表示第 l 层，i 表示第 l 层的第 i 个神经元。 既然反向传播就是一个线性加权，那整个神经网络就可以借助于 GPU 的矩阵并行计算了 。

最后，当你明白了神经网络的原理，是不是越发的认为，它就是在做一堆的微积分运算，当然，作为能证明一个人是否学过微积分，神经网络还是值得学一下的。Just kidding ..

本文我们通过

这四点，全面的学习了神经网络这个知识点，希望本文能给你带来帮助。

参考：

③ 神经网络相关名词解释

很多人认为深度学习很枯燥，大部分情况是因为对深度学习的学术词语，特别是专有名词很困惑，即便对相关从业者，亦很难深入浅出地解释这些词语的含义。

相信读过此文的圈友，会对深度学习有个全新的认识，机器人圈希望可以为圈友的深度学习之路起到一些辅助作用。

人工智能，深度学习，机器学习—无论你在做什么，如果你对它不是很了解的话—去学习它。否则的话不用三年你就跟不上时代的潮流了。——马克.库班

马克.库班的这个观点可能听起来很极端——但是它所传达的信息是完全正确的！我们正处于一场革命的旋涡之中——一场由大数据和计算能力引起的革命。

只需要一分钟，我们来想象一下，在20世纪初，如果一个人不了解电力，他/她会觉得如何？你会习惯于以某种特定的方式来做事情，日复一日，年复一年，而你周围的一切事情都在发生变化，一件需要很多人才能完成的事情仅依靠一个人和电力就可以轻松搞定，而我们今天正以机器学习和深度学习的方式在经历一场相似的旅程。

所以，如果你还没有探索或理解深度学习的神奇力量——那你应该从今天就开始进入这一领域。

与主题相关的术语

为了帮助你了解各种术语，我已经将它们分成3组。如果你正在寻找特定术语，你可以跳到该部分。如果你是这个领域的新手，那我建议你按照我写的顺序来通读它们。

1.神经网络基础（Basics of Neural Networks） ——常用激活函数（Common Activation Functions）

2.卷积神经网络（Convolutional Neural Networks）

3.循环神经网络（Recurrent Neural Networks）

神经网络基础

1）神经元（Neuron） ——就像形成我们大脑基本元素的神经元一样，神经元形成神经网络的基本结构。想象一下，当我们得到新信息时我们该怎么做。当我们获取信息时，我们一般会处理它，然后生成一个输出。类似地，在神经网络的情况下，神经元接收输入，处理它并产生输出，而这个输出被发送到其他神经元用于进一步处理，或者作为最终输出进行输出。

2）权重（Weights） ——当输入进入神经元时，它会乘以一个权重。例如，如果一个神经元有两个输入，则每个输入将具有分配给它的一个关联权重。我们随机初始化权重，并在模型训练过程中更新这些权重。训练后的神经网络对其输入赋予较高的权重，这是它认为与不那么重要的输入相比更为重要的输入。为零的权重则表示特定的特征是微不足道的。

让我们假设输入为a，并且与其相关联的权重为W1，那么在通过节点之后，输入变为a * W1

3）偏差（Bias） ——除了权重之外，另一个被应用于输入的线性分量被称为偏差。它被加到权重与输入相乘的结果中。基本上添加偏差的目的是来改变权重与输入相乘所得结果的范围的。添加偏差后，结果将看起来像a* W1 +偏差。这是输入变换的最终线性分量。

4）激活函数（Activation Function） ——一旦将线性分量应用于输入，将会需要应用一个非线性函数。这通过将激活函数应用于线性组合来完成。激活函数将输入信号转换为输出信号。应用激活函数后的输出看起来像f（a * W1 + b），其中f（）就是激活函数。

在下图中，我们将“n”个输入给定为X1到Xn而与其相应的权重为Wk1到Wkn。我们有一个给定值为bk的偏差。权重首先乘以与其对应的输入，然后与偏差加在一起。而这个值叫做u。

U =ΣW* X+ b

激活函数被应用于u，即 f(u)，并且我们会从神经元接收最终输出，如yk = f（u）。

常用的激活函数

最常用的激活函数就是Sigmoid，ReLU和softmax

a）Sigmoid ——最常用的激活函数之一是Sigmoid，它被定义为：

Sigmoid变换产生一个值为0到1之间更平滑的范围。我们可能需要观察在输入值略有变化时输出值中发生的变化。光滑的曲线使我们能够做到这一点，因此优于阶跃函数。

b）ReLU（整流线性单位） ——与Sigmoid函数不同的是，最近的网络更喜欢使用ReLu激活函数来处理隐藏层。该函数定义为：

当X>0时，函数的输出值为X；当X<=0时，输出值为0。函数图如下图所示：

使用ReLU函数的最主要的好处是对于大于0的所有输入来说，它都有一个不变的导数值。常数导数值有助于网络训练进行得更快。

c） Softmax ——Softmax激活函数通常用于输出层，用于分类问题。它与sigmoid函数是很类似的，唯一的区别就是输出被归一化为总和为1。Sigmoid函数将发挥作用以防我们有一个二进制输出，但是如果我们有一个多类分类问题，softmax函数使为每个类分配值这种操作变得相当简单，而这可以将其解释为概率。

以这种方式来操作的话，我们很容易看到——假设你正在尝试识别一个可能看起来像8的6。该函数将为每个数字分配值如下。我们可以很容易地看出，最高概率被分配给6，而下一个最高概率分配给8，依此类推……

5）神经网络（Neural Network） ——神经网络构成了深度学习的支柱。神经网络的目标是找到一个未知函数的近似值。它由相互联系的神经元形成。这些神经元具有权重和在网络训练期间根据错误来进行更新的偏差。激活函数将非线性变换置于线性组合，而这个线性组合稍后会生成输出。激活的神经元的组合会给出输出值。

一个很好的神经网络定义——

“神经网络由许多相互关联的概念化的人造神经元组成，它们之间传递相互数据，并且具有根据网络”经验“调整的相关权重。神经元具有激活阈值，如果通过其相关权重的组合和传递给他们的数据满足这个阈值的话，其将被解雇;发射神经元的组合导致“学习”。

6）输入/输出/隐藏层（Input / Output / Hidden Layer） ——正如它们名字所代表的那样，输入层是接收输入那一层，本质上是网络的第一层。而输出层是生成输出的那一层，也可以说是网络的最终层。处理层是网络中的隐藏层。这些隐藏层是对传入数据执行特定任务并将其生成的输出传递到下一层的那些层。输入和输出层是我们可见的，而中间层则是隐藏的。

7）MLP（多层感知器） ——单个神经元将无法执行高度复杂的任务。因此，我们使用堆栈的神经元来生成我们所需要的输出。在最简单的网络中，我们将有一个输入层、一个隐藏层和一个输出层。每个层都有多个神经元，并且每个层中的所有神经元都连接到下一层的所有神经元。这些网络也可以被称为完全连接的网络。

8）正向传播（Forward Propagation） ——正向传播是指输入通过隐藏层到输出层的运动。在正向传播中，信息沿着一个单一方向前进。输入层将输入提供给隐藏层，然后生成输出。这过程中是没有反向运动的。

9）成本函数（Cost Function） ——当我们建立一个网络时，网络试图将输出预测得尽可能靠近实际值。我们使用成本/损失函数来衡量网络的准确性。而成本或损失函数会在发生错误时尝试惩罚网络。

我们在运行网络时的目标是提高我们的预测精度并减少误差，从而最大限度地降低成本。最优化的输出是那些成本或损失函数值最小的输出。

如果我将成本函数定义为均方误差，则可以写为：

C= 1/m ∑(y–a)^2，

其中m是训练输入的数量，a是预测值，y是该特定示例的实际值。

学习过程围绕最小化成本来进行。

10）梯度下降（Gradient Descent） ——梯度下降是一种最小化成本的优化算法。要直观地想一想，在爬山的时候，你应该会采取小步骤，一步一步走下来，而不是一下子跳下来。因此，我们所做的就是，如果我们从一个点x开始，我们向下移动一点，即Δh，并将我们的位置更新为x-Δh，并且我们继续保持一致，直到达到底部。考虑最低成本点。

在数学上，为了找到函数的局部最小值，我们通常采取与函数梯度的负数成比例的步长。

11）学习率（Learning Rate） ——学习率被定义为每次迭代中成本函数中最小化的量。简单来说，我们下降到成本函数的最小值的速率是学习率。我们应该非常仔细地选择学习率，因为它不应该是非常大的，以至于最佳解决方案被错过，也不应该非常低，以至于网络需要融合。

12）反向传播（Backpropagation） ——当我们定义神经网络时，我们为我们的节点分配随机权重和偏差值。一旦我们收到单次迭代的输出，我们就可以计算出网络的错误。然后将该错误与成本函数的梯度一起反馈给网络以更新网络的权重。最后更新这些权重，以便减少后续迭代中的错误。使用成本函数的梯度的权重的更新被称为反向传播。

在反向传播中，网络的运动是向后的，错误随着梯度从外层通过隐藏层流回，权重被更新。

13）批次（Batches） ——在训练神经网络的同时，不用一次发送整个输入，我们将输入分成几个随机大小相等的块。与整个数据集一次性馈送到网络时建立的模型相比，批量训练数据使得模型更加广义化。

14）周期（Epochs） ——周期被定义为向前和向后传播中所有批次的单次训练迭代。这意味着1个周期是整个输入数据的单次向前和向后传递。

你可以选择你用来训练网络的周期数量，更多的周期将显示出更高的网络准确性，然而，网络融合也需要更长的时间。另外，你必须注意，如果周期数太高，网络可能会过度拟合。

15）丢弃（Dropout） ——Dropout是一种正则化技术，可防止网络过度拟合套。顾名思义，在训练期间，隐藏层中的一定数量的神经元被随机地丢弃。这意味着训练发生在神经网络的不同组合的神经网络的几个架构上。你可以将Dropout视为一种综合技术，然后将多个网络的输出用于产生最终输出。

16）批量归一化（Batch Normalization） ——作为一个概念，批量归一化可以被认为是我们在河流中设定为特定检查点的水坝。这样做是为了确保数据的分发与希望获得的下一层相同。当我们训练神经网络时，权重在梯度下降的每个步骤之后都会改变，这会改变数据的形状如何发送到下一层。

但是下一层预期分布类似于之前所看到的分布。所以我们在将数据发送到下一层之前明确规范化数据。

17）滤波器（Filters） ——CNN中的滤波器与加权矩阵一样，它与输入图像的一部分相乘以产生一个回旋输出。我们假设有一个大小为28 * 28的图像，我们随机分配一个大小为3 * 3的滤波器，然后与图像不同的3 * 3部分相乘，形成所谓的卷积输出。滤波器尺寸通常小于原始图像尺寸。在成本最小化的反向传播期间，滤波器值被更新为重量值。

参考一下下图，这里filter是一个3 * 3矩阵：

与图像的每个3 * 3部分相乘以形成卷积特征。

18）卷积神经网络（CNN） ——卷积神经网络基本上应用于图像数据。假设我们有一个输入的大小（28 * 28 * 3），如果我们使用正常的神经网络，将有2352（28 * 28 * 3）参数。并且随着图像的大小增加参数的数量变得非常大。我们“卷积”图像以减少参数数量（如上面滤波器定义所示）。当我们将滤波器滑动到输入体积的宽度和高度时，将产生一个二维激活图，给出该滤波器在每个位置的输出。我们将沿深度尺寸堆叠这些激活图，并产生输出量。

你可以看到下面的图，以获得更清晰的印象。

19）池化（Pooling） ——通常在卷积层之间定期引入池层。这基本上是为了减少一些参数，并防止过度拟合。最常见的池化类型是使用MAX操作的滤波器尺寸（2,2）的池层。它会做的是，它将占用原始图像的每个4 * 4矩阵的最大值。

你还可以使用其他操作（如平均池）进行池化，但是最大池数量在实践中表现更好。

20）填充（Padding） ——填充是指在图像之间添加额外的零层，以使输出图像的大小与输入相同。这被称为相同的填充。

在应用滤波器之后，在相同填充的情况下，卷积层具有等于实际图像的大小。

有效填充是指将图像保持为具有实际或“有效”的图像的所有像素。在这种情况下，在应用滤波器之后，输出的长度和宽度的大小在每个卷积层处不断减小。

21）数据增强（Data Augmentation） ——数据增强是指从给定数据导出的新数据的添加，这可能被证明对预测有益。例如，如果你使光线变亮，可能更容易在较暗的图像中看到猫，或者例如，数字识别中的9可能会稍微倾斜或旋转。在这种情况下，旋转将解决问题并提高我们的模型的准确性。通过旋转或增亮，我们正在提高数据的质量。这被称为数据增强。

循环神经网络

22）循环神经元（Recurrent Neuron） ——循环神经元是在T时间内将神经元的输出发送回给它。如果你看图，输出将返回输入t次。展开的神经元看起来像连接在一起的t个不同的神经元。这个神经元的基本优点是它给出了更广义的输出。

23）循环神经网络（RNN） ——循环神经网络特别用于顺序数据，其中先前的输出用于预测下一个输出。在这种情况下，网络中有循环。隐藏神经元内的循环使他们能够存储有关前一个单词的信息一段时间，以便能够预测输出。隐藏层的输出在t时间戳内再次发送到隐藏层。展开的神经元看起来像上图。只有在完成所有的时间戳后，循环神经元的输出才能进入下一层。发送的输出更广泛，以前的信息保留的时间也较长。

然后根据展开的网络将错误反向传播以更新权重。这被称为通过时间的反向传播（BPTT）。

24）消失梯度问题（Vanishing Gradient Problem） ——激活函数的梯度非常小的情况下会出现消失梯度问题。在权重乘以这些低梯度时的反向传播过程中，它们往往变得非常小，并且随着网络进一步深入而“消失”。这使得神经网络忘记了长距离依赖。这对循环神经网络来说是一个问题，长期依赖对于网络来说是非常重要的。

这可以通过使用不具有小梯度的激活函数ReLu来解决。

25）激增梯度问题（Exploding Gradient Problem） ——这与消失的梯度问题完全相反，激活函数的梯度过大。在反向传播期间，它使特定节点的权重相对于其他节点的权重非常高，这使得它们不重要。这可以通过剪切梯度来轻松解决，使其不超过一定值。

导航:首页 > 编程大全 > 神经网络cost函数

神经网络cost函数

与神经网络cost函数相关的资料

友情链接