Что такое производная от функции активации, используемая для обратного распространения?

Я читаю этотдокумент, и они утверждают, что формула корректировки веса такова:

новый вес = старый вес + скорость обучения * дельта * df(e)/de * input

Часть df(e)/deявляется производной от функции активации, которая обычно представляет собой сигмовидную функцию, такую ​​как tanh. Теперь, для чего это на самом деле? Почему мы даже умножаем на это? Почему недостаточно просто скорость обучения * дельта * ввод ?

Этот вопрос возник после этого и тесно связан с ним: Почему нелинейная функция активации должна использоваться в нейронной сети с обратным распространением?.

10
задан Community 23 May 2017 в 12:26
поделиться