5
ответов

Как я могу распознать немного измененные изображения?

У меня есть очень большая база данных изображений jpeg, приблизительно 2 миллионов. Я хотел бы сделать нечеткий поиск дубликатов среди тех изображений. Дублирующиеся изображения являются двумя изображениями, которые имеют многих (приблизительно половина).
вопрос задан: 30 January 2010 18:03
3
ответа

Нечеткие регулярные выражения

В моей работе у меня есть с большими результатами используемые приблизительные алгоритмы сопоставления строк, такие как Damerau-расстояние-Левенштейна для создания моего кода менее уязвимым для орфографических ошибок. Теперь у меня есть потребность соотве
вопрос задан: 16 November 2015 22:23
3
ответа

Канонический URL выдерживает сравнение в Python?

Там какие-либо инструменты должны сделать, URL выдерживает сравнение в Python? Например, если бы у меня есть http://google.com и google.com/, я хотел бы знать, что они, вероятно, будут тем же сайтом. Если я должен был создать правило...
вопрос задан: 19 July 2010 22:17
2
ответа

q-грамм приблизительные оптимизации соответствия

У меня есть таблица, содержащая 3 миллиона человек записи, на которых я хочу выполнить нечеткое соответствие с помощью q-граммов (на фамилии, например). Я составил таблицу 2 граммов, связывающихся с этим, но поиском...
вопрос задан: 24 November 2015 23:49
2
ответа

Как сгруппироваться / сравнивают подобные новостные статьи

В приложении, которое я создаю, я хочу добавить функциональность, которая собирает в группу новости. Я хочу сгруппировать новости о той же теме из других источников в ту же группу. Например...
вопрос задан: 23 July 2010 17:25
1
ответ

Сравнение (подобных) изображений с Python/PIL

Я пытаюсь вычислить подобие (чтение: Расстояние Левенштейна) двух изображений, с помощью Python 2.6 и PIL. Я планирую на нас e библиотека python-levenshtein для быстрого сравнения. Основной вопрос: Что...
вопрос задан: 1 November 2015 03:08
0
ответов

Используя MinHash для нахождения общих черт между 2 изображениями

Я использую алгоритм MinHash для нахождения подобных изображений между изображениями. Я натыкался на это сообщение, Как я могу распознать немного измененные изображения? который указал на меня на алгоритм MinHash. Я использовал C#...
вопрос задан: 14 June 2018 11:17
0
ответов

elasticsearch нечеткое сопоставление max_expansions & min_similarity

Я в основном использую нечеткое сопоставление в моем проекте чтобы найти орфографические ошибки и разные варианты написания одних и тех же имен. Мне нужно точно понимать, как работает нечеткое сопоставление эластичного поиска и как оно ...
вопрос задан: 1 November 2015 03:03
0
ответов

Нечеткие регулярные выражения

Я ищу для способа нечеткого совпадения с использованием регулярных выражений. Я бы хотел использовать Perl, но если кто-то может порекомендовать какой-либо способ сделать это, это будет полезно. В качестве примера я хочу сопоставить ...
вопрос задан: 29 October 2015 06:42
0
ответов

Генерируйте “нечеткое” различие двух файлов в Python с приблизительным сравнением плаваний

У меня есть проблема для сравнения двух файлов. В основном то, что я хочу сделать, является подобной UNIX разностью между двумя файлами, например: разность $-u правильный файл лево-файла Однако мои два файла содержит плавания; и...
вопрос задан: 8 October 2015 20:33
0
ответов

Нечеткое сравнение строк

То, что я пытаюсь сделать, — это программа, которая читает файл и сравнивает каждое предложение с исходным предложением. Предложение, полностью соответствующее оригиналу, получит...
вопрос задан: 30 April 2012 11:46
0
ответов

Нечеткое сопоставление чисел

Я работал с Double Metaphone и Caverphone2 для сравнения строк, и они хорошо работают на таких вещах, как имена, адреса и т.д. (Caverphone2 работает лучше всего для меня). Однако они производят гораздо ...
вопрос задан: 28 December 2011 21:46
0
ответов

приблизительный RegEx в Python с TRE: странное поведение в Юникоде

Я пытаюсь использовать TRE-библиотеку в Python для сопоставления ввода с ошибками. Важно, чтобы он хорошо обрабатывал строки в кодировке utf-8. пример: Название столицы Германии - Берлин, но из ...
вопрос задан: 4 August 2011 18:10
0
ответов

Методы поиска почти повторяющихся записей

Я пытаюсь очистить базу данных, которая за долгие годы накопила много повторяющихся записей, с помощью немного другие имена. Например, в таблице компаний есть такие имена, как «Некоторая компания ...
вопрос задан: 13 July 2011 17:58
0
ответов

Алгоритм нечеткого сопоставления / фрагментации

Предпосылки: у меня есть видеоклипы и аудиодорожки, которые я хочу синхронизировать с указанными видео. Из видеоклипов извлечу эталонную звуковую дорожку. У меня также есть еще одна дорожка, которую я хочу синхронизировать ...
вопрос задан: 25 February 2011 20:55
0
ответов

Использование штрихов пера с алгоритмом нечеткой допустимости в качестве ключа шифрования

Как я могу зашифровать / расшифровать с нечеткой точностью? Я хочу иметь возможность использовать Stroke на InkCanvas в качестве ключа для моего шифрования, но при повторном дешифровании пользователю не нужно рисовать то же самое ...
вопрос задан: 9 September 2010 16:41