Метод обучения в керасе? [Дубликат]

Тип математики с плавающей запятой, которая может быть реализована на цифровом компьютере, обязательно использует приближение реальных чисел и операций над ними. (Стандартная версия стандартная работает до более чем пятидесяти страниц документации и имеет комитет для рассмотрения ее ошибок и дальнейшего уточнения.)

Это приближение представляет собой смесь приближений разного типа, каждый из которых можно либо игнорировать, либо тщательно учитывать из-за его конкретного способа отклонения от точности. Это также включает в себя ряд явных исключительных случаев как на уровне аппаратного обеспечения, так и на уровне программного обеспечения, которое большинство людей прогуливает прямо мимо, делая вид, что не замечает.

Если вам нужна бесконечная точность (например, вместо числа π одного из его более коротких резервных копий), вы должны написать или использовать символическую математическую программу.

Но если вы в порядке с идеей о том, что иногда математика с плавающей запятой нечеткая по значению и логике и ошибки могут быстро накапливаться, и вы можете написать свои требования и тесты для этого, тогда ваш код может часто проходить с помощью того, что находится в вашем FPU.

19
задан Amir 30 January 2016 в 17:46
поделиться

1 ответ

Чтобы понять, как возможно backpropagation даже с такими функциями, как ReLU, вам нужно понять, что является самым важным свойством производной, которое делает так, что алгоритм backpropagation работает так хорошо. Это свойство состоит в том, что:

f(x) ~ f(x0) + f'(x0)(x - x0)

Если вы рассматриваете x0 как фактическое значение вашего параметра на данный момент - вы можете сказать (знающее значение функции стоимости и его производного), как функция стоимости будет если вы немного измените свои параметры. Это самая важная вещь в backpropagation.

Из-за того, что функция вычислительной стоимости имеет решающее значение для вычисления стоимости - вам понадобится ваша функция стоимости, чтобы удовлетворить указанное выше свойство. Легко проверить, что ReLU удовлетворяет этому свойству всюду, кроме малой окрестности 0. И это единственная проблема с ReLU - тот факт, что мы не можем использовать это свойство, когда мы близки к 0.

Чтобы преодолеть это, вы можете выбрать значение производной ReLU в 0 либо 1 или 0. С другой стороны, большинство исследователей не рассматривают эту проблему как серьезную, просто из-за того, что быть близким к 0 во время вычислений ReLU относительно редко.

Из вышеизложенного - конечно - с чистой математической точки зрения нецелесообразно использовать ReLU с алгоритмом обратного распространения. С другой стороны - на практике обычно не имеет никакого значения, что это странное поведение вокруг 0.

14
ответ дан Marcin Możejko 24 August 2018 в 09:10
поделиться
Другие вопросы по тегам:

Похожие вопросы: