Как использовать Пирамиду DoG в, ОТСЕИВАЮТ

Question

Как использовать Пирамиду DoG в, ОТСЕИВАЮТ

Я являюсь очень новым в обработке изображений и распознавании образов. Я пытаюсь реализовать, ОТСЕИВАЮТ алгоритм, где я могу создать пирамиду DoG и определить локальный максимум или минимум в каждой октаве. То, что я не понимаю, является этим, как использовать их локальные макс. / минута в каждой октаве. Как я комбинирую эти точки?

Мой вопрос может звучать очень тривиальным. Я прочитал газету Lowe's, но не мог действительно понять то, что он сделал после того, как он создал пирамиду DoG. Любая справка ценится.

Спасибо

6

image-processing pattern-recognition sift

задан Ahmet Keskin 24 April 2010 в 14:45

2 ответа

vlfeat - это библиотека с открытым исходным кодом, реализующая несколько алгоритмов компьютерного зрения, включая SIFT. Вы должны иметь возможность взглянуть на этот исходный код, чтобы лучше понять, что делается.

Если вы правильно находите экстремумы в каждой октаве, вы можете:

Выполнить более подробную подгонку для шкалы и местоположения экстремумов
Отказ от низкоконтрастных и краевых ответы

Для каждого объекта, остающегося на данный момент,

Вычислить доминирующую ориентацию в пределах размера окна относительно масштаба обнаруженного объекта.
Построить представление дескриптора SIFT (путем накопления градиентов в пространственная сетка гистограмм ориентации 4х4). Это описано в разделе 6.1 статьи .

Я не уверен, насколько это помогло, потому что я не знаю, где вы повесили трубку.

1

ответ дан 17 December 2019 в 04:44

Другие вопросы по тегам:

image-processing pattern-recognition sift

Похожие вопросы:

score 4 · Accepted Answer

В основном, то, что он делает после построения пирамиды DoG, это обнаруживает локальные экстремумы на этих изображениях. Затем он отбрасывает некоторые из обнаруженных локальных экстремумов, поскольку они, вероятно, нестабильны. Процесс выявления этих нестабильных ключевых точек/функций состоит из двух этапов:

отбраковка точек с низким контрастом
отбраковка точек, которые плохо локализованы вдоль края (это означает, что они имеют сильный отклик края только в одном направлении)

Чтобы иметь возможность выполнить эти шаги, сначала нужно получить истинное местоположение экстремумов путем разложения в ряд Тейлора. Это даст вам информацию для решения этих двух шагов.

Последний шаг - построение дескрипторов ...

Я тоже изучаю этот алгоритм и не нахожу его таким уж тривиальным для понимания. Есть некоторые детали, которые не включены в статью Лоу, так что это делает его более трудным для понимания. Я не нашел много дополнительных ресурсов, которые объясняют этот алгоритм более глубоко, но есть несколько реализаций с открытым исходным кодом, так что вы можете воспользоваться ими.

EDIT: больше информации :)

Статья, на которую вы дали ссылку, является его ранней работой, и вам следует получить самую новую версию статьи, потому что в ней есть некоторые изменения. В поисках дополнительных ресурсов я также прочитал его патент, и он также содержит старую информацию, так что вам не стоит туда заглядывать.

Итак, мое понимание этого шага по получению экстремума в масштабно-пространственном пространстве следующее. Сначала нам нужно построить гауссову пирамиду. В работе говорится, что для полноты локальных экстремумов нам нужно построить s+3 гауссовых изображений в каждой октаве. Проведя некоторые тесты, Лоу пришел к выводу, что для s = 3 он получает наилучшие результаты. Таким образом, получается 6 гауссовых изображений в каждой октаве, из которых мы получаем 5 DoG-изображений. Обратите внимание, что все эти изображения DoG имеют одинаковое разрешение. Передискретизация выполняется только при переходе к следующей октаве.

Следующим шагом будет поиск локального экстремума. Лоу предлагает искать в пределах 26 окрестностей, что означает, что мы должны начать поиск со второго изображения, потому что это первое изображение, для которого существует 26 окрестностей. Аналогично мы прекращаем поиск на четвертом изображении. Этот процесс повторяется для каждой октавы отдельно. Для каждого найденного экстремума необходимо сохранить его местоположение и масштаб. После нахождения экстремумов следующим шагом будет более точная локализация, которая выполняется с помощью ряда Тейлора.

Это мое понимание того, как работает этот шаг, и я надеюсь, что я не слишком далек от истины :)

Надеюсь, это помогло немного больше.