8
ответов

Нечеткое соответствие названий продукта

Я должен автоматически соответствовать названиям продукта (камеры, ноутбуки, ТВ и т.д.), которые прибывают от других источников до канонического имени в базе данных. Например, "Canon PowerShot a20IS", "НОВЫЙ powershot A20...
вопрос задан: 16 November 2015 22:14
6
ответов

Нечеткое сопоставление между столбцами разных фреймов данных (разной длины) [дубликат]

Я вижу, что относительно легко выполнить нечеткое сопоставление между двумя столбцами двух данных с одинаковой длиной здесь, но как обобщить на числовые кадры различной длины?
вопрос задан: 3 December 2012 12:08
6
ответов

Супер нечеткая проверка имени?

Я работаю над некоторым материалом для внутренней CRM. Текущий frontend компании допускает много дубликатов. Я пытаюсь мешать конечным пользователям включить того же человека, потому что они искали '...
вопрос задан: 20 July 2010 13:24
6
ответов

Как найти лучшее нечеткое соответствие для строки в большой строковой базе данных

У меня есть база данных строк (произвольная длина), которая содержит больше чем один миллион объектов (потенциально больше). Я должен сравнить обеспеченную пользователями строку с целой базой данных и получить...
вопрос задан: 21 November 2008 17:02
5
ответов

Легкая нечеткая библиотека поиска

Можете ли вы предложить легковесную библиотеку нечеткого текстового поиска? Я хочу разрешить пользователям находить правильные данные для поисковых запросов с опечатками. Я мог бы использовать полнотекстовые поисковые системы, такие как Lucene, ...
вопрос задан: 9 September 2010 14:58
5
ответов

Как сделать нечеткий поиск строки без тяжелой базы данных?

У меня есть отображение каталожных номеров к названиям продукта: 35 удобных стеганых ватных одеял 35 теплых общих 67 подушек и потребность поиск, который нашел бы написанные c орфографическими ошибками, смешанные имена как "теплый cmfrter". У на
вопрос задан: 7 May 2009 13:11
4
ответа

Методы Левенштейна, основанные на расстоянии против Soundex

Что касается этого комментария в связанной ветке, я хотел бы знать, почему методы, основанные на расстоянии Левенштейна, лучше, чем Soundex.
вопрос задан: 23 May 2017 12:34
4
ответа

Как я делаю нечеткое соответствие названий компаний в MySQL с PHP для автоматического заполнения?

Мои пользователи импортируют через вырезанный и вставленный большую строку, которая будет содержать названия компаний. У меня есть существующая и растущая база данных MYSQL названий компаний, каждого с уникальным company_id. Я хочу...
вопрос задан: 23 May 2017 11:33
4
ответа

Нечеткая библиотека поиска строки в [закрытом] Java

Я ищу высокопроизводительную библиотеку Java для нечеткого поиска строки. Существуют многочисленные алгоритмы для нахождения подобных строк, расстояния Левенштейна, Daitch-Mokotoff Soundex, n-граммы и т.д. Что Java...
вопрос задан: 19 September 2016 16:31
4
ответа

Запрос Lucene: bla ~* (распознают слова, которые запускаются с чего-то нечеткого), как?

В синтаксисе запроса Lucene я хотел бы объединиться * и ~ в допустимом запросе, подобном: bla ~*//недопустимый запрос, Означающий: распознайте слова, которые начинаются с "bla" или чего-то подобного "bla". Обновление:...
вопрос задан: 21 November 2015 13:15
4
ответа

Действительно ли возможно выполнить T-SQL нечеткий поиск без SSIS?

SSIS 2005/2008 делает нечеткие поиски и группировки. Существует ли функция, которая делает то же в T-SQL?
вопрос задан: 16 November 2015 22:14
4
ответа

Функция “Did you mean” на базе данных словаря

У меня есть ~300.000 таблицы строки; который включает технические термины; запрошенное использование PHP и MySQL + Полнотекстовые индексы. Но когда я ищущий неправильное введенное слово; например, "hyperpext"; естественно предоставление нет...
вопрос задан: 16 November 2015 22:13
4
ответа

Реальная мировая статистика опечаток? [закрыто]

Где я могу найти статистику опечаток в реальном мире? Я пытаюсь сопоставить вводимый текст людей с внутренними объектами, и люди, как правило, допускают орфографические ошибки. Существует 2 вида ошибок: опечатки - "...
вопрос задан: 7 November 2015 10:18
4
ответа

Лучший алгоритм ранжирования сходства для строк переменной длины

Я ищу алгоритм сходства строк, который дает лучшие результаты для строк переменной длины, чем те, которые обычно предлагаются (расстояние Левенштейна, soundex и т. Д.). Например, учитывая ...
вопрос задан: 18 September 2014 00:10
3
ответа

Существует ли способ заставить emacs's что-нибудь делать “нечеткие” поиски?

Я не уверен, если нечеткий корректный способ формулировать это, поэтому позвольте мне объяснять, что я хочу сделать. Часто времена, я ищу файлы, которые я знаю, в рамках конкретного каталога в моем локальном SVN...
вопрос задан: 14 August 2017 13:01
3
ответа

Нечеткий текст (предложения/заголовки), соответствующие в C#

Эй, я использую алгоритм Levenshteins для получения расстояния между входной и выходной строкой. также у меня есть метод, который возвращает значение от 0 до 1:///<сводка>///Получает подобие между два...
вопрос задан: 23 May 2017 11:47
3
ответа

Слияние двух Кадров данных с помощью Нечеткого/Приблизительного Сопоставления строк в R

ОПИСАНИЕ у меня есть два набора данных с информацией, которую я должен объединить. Единственные общие поля, которые я имею, являются строками, которые отлично не соответствуют и числовое поле, которое может быть существенно...
вопрос задан: 16 November 2015 22:24
3
ответа

Нечеткие регулярные выражения

В моей работе у меня есть с большими результатами используемые приблизительные алгоритмы сопоставления строк, такие как Damerau-расстояние-Левенштейна для создания моего кода менее уязвимым для орфографических ошибок. Теперь у меня есть потребность соотве
вопрос задан: 16 November 2015 22:23
3
ответа

Нечеткое соответствие с помощью T-SQL

У меня есть таблица Persons с personaldata и так далее. Существует много столбцов, но, после того как из интереса вот: addressindex, lastname и firstname, где addressindex является уникальным адресом, который развертывают...
вопрос задан: 18 September 2014 07:01
3
ответа

Алгоритмы для строк “нечеткого соответствия”

Нечетким соответствием я не имею в виду подобные строки расстоянием Левенштейна или чем-то подобным, но способом, которым оно используется в TextMate/Ido/Icicles: учитывая список строк, найдите тех, которые включают все...
вопрос задан: 11 September 2010 06:34
3
ответа

Как быстро найти файл в рабочей области/переключателе между буферами/и т.д. в Eclipse?

Я ищу что-то как нечеткий поиск Textmate на Команде-T, FuzzyFinder в Vim или идо в Emacs. Это существует? Если не, как Вы предпочитаете делать это?
вопрос задан: 17 May 2010 08:22
3
ответа

Что должно реализовать самое легкое поисковое приложение сайта, который поддерживает нечеткий поиск?

У меня есть сайт, который должен перерыть о 20-30k записях, которые являются главным образом названиями сериала и фильмом. Сайт выполняет php/mysql с кэш-памятью. Я надеюсь заменять FULLTEXT soundex ()...
вопрос задан: 14 December 2009 11:34
2
ответа

q-грамм приблизительные оптимизации соответствия

У меня есть таблица, содержащая 3 миллиона человек записи, на которых я хочу выполнить нечеткое соответствие с помощью q-граммов (на фамилии, например). Я составил таблицу 2 граммов, связывающихся с этим, но поиском...
вопрос задан: 24 November 2015 23:49
2
ответа

R: Ошибка в if (n & gt; 0) c (NA_integer_, -n) else integer (): отсутствует значение, в котором требуется TRUE / FALSE [дублировать]

Мне нужно объединить два набора данных, используя ссылку сравнения для вычисления весов. Первый набор данных имеет 2,5 миллион рядов, второй набор данных - 300 000 рядов. Оба набора данных имеют только одну переменную (ido) и я ...
вопрос задан: 26 December 2014 17:32
2
ответа

Нечеткое соответствие Lucene на Фразе вместо Отдельного слова

Я пытаюсь сделать нечеткое соответствие на Фразе "Главный Prarie" (сознательно написал c орфографическими ошибками), использование Apache Lucene. Часть моей проблемы - то, что ~ оператор только делает нечеткие соответствия на условиях отдельного
вопрос задан: 23 June 2010 13:14
2
ответа

PHP/MySQL небольшой нечеткий поиск

Я надеюсь реализовывать нечеткий поиск маленького приложения PHP/MySQL. А именно, у меня есть база данных приблизительно с 2 400 записями (записи, добавленные на уровне приблизительно 600 в год, таким образом, это - маленькое...
вопрос задан: 16 December 2009 13:30
2
ответа

Лучший алгоритм нечеткого соответствия? [закрытый]

Каков лучший Алгоритм нечеткого соответствия (Нечеткая логика, n-грамма, Levenstein, Soundex....) для обработки больше чем 100 000 записей за меньшее время?
вопрос задан: 29 January 2009 10:33
1
ответ

Поиск слов в длинной строке на расстоянии редактирования без учета пробелов

Я ищу алгоритм для эффективного поиска слов в пределах заданного расстояния редактирования в строке запроса, игнорируя при этом пробел. Например, Если слова, по которым мне нужно построить индекс: OHIO, ...
вопрос задан: 21 February 2019 04:13
1
ответ

Функция подобия в Пост-ГРЭС с pg_trgm

Я пытаюсь использовать функцию подобия в Пост-ГРЭС, чтобы сделать некоторое нечеткое текстовое соответствие, однако каждый раз, когда я пытаюсь использовать его, я получаю ошибку: функциональное подобие (символьное варьирование, неизвестное), не существуе
вопрос задан: 12 February 2010 20:44
0
ответов

При сопоставлении строк с использованием конвейера ML возникла ошибка. Не удалось выполнить пользовательскую функцию ($ anonfun $ 1: (вектор) = > массив < вектор >)

я пытаюсь сделать совпадение строк на двух данных. Допустим, dataframe1 содержит X предложений, а dataframe2 Y предложений. Мне нужно проверить, любое предложение из Dataframe1 совпадает с ...
вопрос задан: 11 April 2019 10:34