神经网络的反向传播

如何传播

反向传播的公式如下
$$
\begin{gather}
\delta^{(L)}=a^{(L)}-y \\
\delta^{(n)}=(\Theta^{(n)})^T\delta^{(n+1)}.g’(z^{(n)}) \\
g’(z^{(n)})=a^{(n)}.(1-a^{(n)})
\end{gather}
$$
其中$\delta$、$a$和$y$都是向量，$\delta$表示的是偏差值，$a$表示的是激活单元，y则是训练集中的实际值，$.*$表示点乘，用于矩阵间的运算

为何需要反向传播

现在我们已经计算出了$\delta$，那么他有什么用呢？

在忽略正则化项$\lambda$的时候，我们可以得到
$$
\begin{gather}
\frac{\partial J(\Theta)}{\partial \Theta_{ij}^{(l)}}=a_j^{(l)}\delta_i^{(l)}
\end{gather}
$$

反向传播是用于快速计算导数的方法

author: Adam Pan
link: https://adampan0527.github.io/2022/05/08/神经网络反向传播/
Copyright notice: All articles on this website, unless otherwise stated, adopt CC BY-NC-ND 4.0 reprint policy. If reproduced, please indicate source!

你的赏识是我前进的动力

支付宝

微信