Непрерывный по сравнению с Дискретными искусственными нейронными сетями

Я понимаю, что это, вероятно, очень вопрос о нише, но у кого-либо был опыт с работой с непрерывными нейронными сетями? Я конкретно интересуюсь тем, для чего непрерывная нейронная сеть может быть полезна по сравнению с тем, для чего Вы обычно используете дискретные нейронные сети.

Для ясности я разрешу то, что я подразумеваю под непрерывной нейронной сетью, поскольку я предполагаю, что она может быть интерпретирована для значения разных вещей. Я не подразумеваю, что функция активации непрерывна. Скорее я ссылаюсь на идею увеличения числа нейронов в скрытом слое к бесконечной сумме.

Таким образом для ясности, вот архитектура Вашего типичного осторожного NN:alt textx вход, g активация скрытого слоя, v веса скрытого слоя, w веса выходного слоя, b предвзятость, и по-видимому выходной слой имеет линейную активацию (а именно, ни один.)

Различие между дискретным NN и непрерывным NN изображено этим числом:alt text Это - Вы, позволяют количеству скрытых нейронов стать бесконечным так, чтобы Ваш окончательный результат был интегралом. На практике это означает, что вместо того, чтобы вычислить детерминированную сумму вместо этого необходимо приблизить соответствующий интеграл с квадратурой.

По-видимому, это - распространенное заблуждение с нейронными сетями, что слишком много скрытых нейронов производят сверхустановку.

Мой вопрос а именно, учитывая это определение дискретных и непрерывных нейронных сетей, я задавался вопросом, был ли у кого-либо опыт при работе с последним и для каких вещей они использовали их.

Дальнейшее описание по теме может быть найдено здесь: http://www.iro.umontreal.ca/~lisa/seminaires/18-04-2006.pdf

12
задан Community 8 February 2017 в 14:27
поделиться

4 ответа

В прошлом я работал над несколькими исследовательскими проектами, используя непрерывные NN. Активация производилась с помощью биполярного гиперболического тана, сеть принимала несколько сотен входов с плавающей запятой и выдавала около ста значений с плавающей запятой.

В данном конкретном случае целью сети было изучение динамических уравнений поезда с минералами. Сеть получила текущее состояние поезда и предсказала скорость, межвагонную динамику и другое поведение поезда на 50 секунд вперед.

Обоснованием для этого конкретного проекта была в основном производительность. Проект предназначался для встраиваемого устройства, и оценка NN была гораздо более удобной для производительности, чем решение традиционной системы ODE (обыкновенных дифференциальных уравнений).

В целом, непрерывная NN должна быть способна обучаться любому виду функции. Это особенно полезно, когда систему невозможно/очень трудно решить детерминированными методами. В отличие от бинарных сетей, которые часто используются для распознавания образов/классификации.

Учитывая их недетерминированную природу, NN любого типа - обидчивые звери, выбор правильных типов входов/архитектуры сети может быть в некоторой степени черным искусством.

2
ответ дан 2 December 2019 в 23:06
поделиться

Я думаю, что это представляет интерес либо только для теоретиков, пытающихся доказать, что ни одна функция не выходит за рамки аппроксимации архитектуры NN, либо это может быть предложение о методе построения кусочно-линейного приближение (через обратное распространение) функции. Если это последнее, я думаю, что существуют существующие методы, которые намного быстрее, менее подвержены локальным минимумам и менее склонны к переобучению, чем обратное распространение.

Насколько я понимаю, NN состоит в том, что соединения и нейроны содержат сжатое представление данных, на которых они обучаются. Ключевым моментом является то, что у вас есть большой набор данных, который требует больше памяти, чем «общий урок», который прослеживается в каждом примере.Предполагается, что NN - это экономичный контейнер, который извлечет этот общий урок из этого огромного корпуса.

Если ваша NN имеет достаточно скрытых единиц для плотной выборки исходной функции, это равносильно утверждению, что ваша NN достаточно велика, чтобы запомнить обучающий корпус (в отличие от обобщения из него). Обучающий корпус можно рассматривать как образец исходной функции с заданным разрешением. Если NN имеет достаточно нейронов для выборки функции с еще более высоким разрешением, чем ваш обучающий корпус, то система просто не требует обобщения, потому что она не ограничена количеством нейронов, чтобы сделать это.

Поскольку никаких обобщений не требуется и не требуется, вы можете просто запомнить корпус, сохранив все свои обучающие данные в памяти, и использовать k-ближайший сосед, который всегда будет работать лучше, чем любой NN, и всегда будет работать так же хорошо, как и любой NN, даже если разрешение выборки NN приближается к бесконечности.

2
ответ дан 2 December 2019 в 23:06
поделиться

Этот термин еще не прижился в литературе по машинному обучению, что объясняет всю путаницу. Похоже, что это была разовая статья, причем интересная, но она ни к чему не привела, что может означать несколько вещей; возможно, автор просто потерял интерес.

Я знаю, что байесовские нейронные сети (со счетным числом скрытых единиц, статья "Непрерывные нейронные сети" распространяется на несчетный случай) были успешно использованы Рэдфордом Нилом (см. его диссертацию, посвященную этому материалу) для победы в NIPS 2003 Feature Selection Challenge с использованием байесовских нейронных сетей.

2
ответ дан 2 December 2019 в 23:06
поделиться

Нейронные сети прямого хода всегда "непрерывны" - это единственный способ, при котором обучение методом обратного распространения действительно работает (вы не можете осуществлять обратное распространение через дискретную/степенную функцию, потому что она не дифференцируема на пороге смещения).

У вас может быть дискретное (например, "одномоментное") кодирование входа или целевого выхода, но все вычисления являются непрерывными. Выход может быть ограничен (например, с выходным слоем softmax, чтобы сумма выходов всегда равнялась единице, как это часто бывает при классификации), но опять же, все равно является непрерывным.

Если вы имеете в виду сеть, которая предсказывает непрерывную, не ограниченную цель - подумайте о любой проблеме предсказания, где "правильный ответ" не является дискретным, и линейной регрессионной модели будет недостаточно. Рекуррентные нейронные сети в разное время были модным методом для различных приложений финансового прогнозирования, например.

1
ответ дан 2 December 2019 в 23:06
поделиться
Другие вопросы по тегам:

Похожие вопросы: