本文基于Sakura-gh大佬的机器学习笔记修改,仅作为学习资料备用,如有侵权,联系作者。
Backpropagation
Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法
Gradient Descent
gradient descent的使用方法,跟前面讲到的linear Regression或者是Logistic Regression是一模一样的,唯一的区别就在于当它用在neural network的时候,network parameters $\theta=w_1,w_2,…,b_1,b_2,…$里面可能会有将近million个参数
所以现在最大的困难是,如何有效地把这个近百万维的vector给计算出来,这就是Backpropagation要做的事情,所以Backpropagation并不是一个和gradient descent不同的training的方法,它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率
Chain Rule
Backpropagation里面并没有什么高深的数学,你唯一需要记得的就只有Chain Rule(链式法则)
对整个neural network,我们定义了一个loss function:$L(\theta)=\sum\limits_{n=1}^N l^n(\theta)$,它等于所有training data的loss之和










