Я читаю этотдокумент, и они утверждают, что формула корректировки веса такова:
новый вес = старый вес + скорость обучения * дельта * df(e)/de * input
Часть df(e)/de
является производной от функции активации, которая обычно представляет собой сигмовидную функцию, такую как tanh
. Теперь, для чего это на самом деле? Почему мы даже умножаем на это? Почему недостаточно просто скорость обучения * дельта * ввод
?
Этот вопрос возник после этого и тесно связан с ним: Почему нелинейная функция активации должна использоваться в нейронной сети с обратным распространением?.