11
ответов

Как я могу оптимизировать этот код Python для генерации всех слов с расстоянием слова 1?

Профилирование показывает, что это - самый медленный сегмент моего кода для небольшой словесной игры, которую я записал: расстояние определения (word1, word2): различие = 0, поскольку я в диапазоне (len (word1)): если word1 [я]! = word2 [я]:...
вопрос задан: 23 May 2017 10:27
9
ответов

Лучший способ обнаружить подобные адреса электронной почты?

У меня есть список ~20 000 адресов электронной почты, некоторые из которых я знаю, чтобы быть мошенническими попытками обойти "1 на электронную почту" предел, такой как username1@gmail.com, username1a@gmail.com, username1b@gmail.com...
вопрос задан: 5 September 2010 15:47
8
ответов

Нечеткое соответствие названий продукта

Я должен автоматически соответствовать названиям продукта (камеры, ноутбуки, ТВ и т.д.), которые прибывают от других источников до канонического имени в базе данных. Например, "Canon PowerShot a20IS", "НОВЫЙ powershot A20...
вопрос задан: 16 November 2015 22:14
7
ответов

Расстояние Левенштейна: как лучше обработать слова, подкачивающие положения?

Я имел некоторый успех, сравнивающий строки с помощью PHP levenshtein функция. Однако для двух строк, которые содержат подстроки, которые подкачали положения, алгоритм считает тех как целых новыми...
вопрос задан: 19 November 2010 09:41
7
ответов

Сравните 5 000 строк с PHP Levenshtein

Я имею 5000, иногда больше, строки конкретного адреса в массиве. Я хотел бы сравнить их всех с levenshtein для нахождения подобных соответствий. Как я могу сделать это без цикличного выполнения через все 5000 и сравнения...
вопрос задан: 5 September 2010 15:43
5
ответов

Самый эффективный способ вычислить расстояние Левенштейна

Я просто реализовал лучший алгоритм поиска файла соответствия для нахождения самого близкого соответствия к строке в словаре. После профилирования моего кода я узнал, что подавляющее большинство времени потрачено...
вопрос задан: 30 May 2018 20:55
5
ответов

Существует ли алгоритм расстояния редактирования, который принимает во внимание “перемещение блока”?

Я поместил "перемещение блока" в кавычки, потому что я не знаю, ли или каков технический термин должен быть. Просто знание, если бы существует технический термин для процесса, было бы очень полезно. Википедия...
вопрос задан: 18 May 2009 17:19
4
ответа

Строковые метрики подобия в Python

Я хочу к подобию строки поиска между двумя строками. Эта страница имеет примеры некоторых из них. Python имеет implemnetation алгоритма Levenshtein. Есть ли лучший алгоритм, (и надо надеяться...
вопрос задан: 2 July 2011 04:38
3
ответа

Реализация расстояния Левенштейна для поиска mysql/fuzzy?

Я хотел бы смочь искать таблицу следующим образом кузнеца, как получают все что это в 1 различии. Данные: O'Brien Smithe Dolan Smuth Wong Smoth Gunther Smiht я изучил использование...
вопрос задан: 23 December 2011 17:49
3
ответа

Текстовый алгоритм подобия

У меня есть два файла подзаголовков. Мне нужна функция, которая говорит, представляют ли они иногда тот же текст или подобный текст существуют комментарии как "Ветер, дует..., музыка играет" в...
вопрос задан: 6 November 2011 15:15
3
ответа

Поиск алгоритма для текстовой разности, которая обнаруживает и может сгруппировать подобные строки

Я нахожусь в процессе записи различного текстового инструмента для сравнения двух подобных файлов исходного кода. Вокруг существует много таких "различных" инструментов, но мой должен быть немного улучшен: Если это находит, что ряд строк...
вопрос задан: 10 February 2010 13:39
3
ответа

Ускорение levenshtein / similar_text в PHP

Я в настоящее время использую similar_text для сравнения строки со списком ~50 000, который работает, хотя должный к количеству сравнений, это очень медленно. Требуется приблизительно 11 минут для сравнения ~500 уникальных...
вопрос задан: 1 August 2009 02:56
2
ответа

Как настроить Solr для использования приблизительного сопоставления строк Levenshtein?

Апачи поисковая система Solr обеспечивают приблизительные строковые соответствия, например, с помощью алгоритма Levenshtein? Я ищу способ найти клиентов фамилией. Но я не могу гарантировать правильность...
вопрос задан: 26 March 2019 14:12
2
ответа

Можно ли указать функцию расстояния levenshtein с помощью scikit-learn K-Means Clustering? [Дубликат]

Мне нужно кластерные предложения для этого, я преобразовал предложения в векторы, используя td-idf vectorizer, как из sklearn.feature_extraction.text импортировать TfidfVectorizer из sklearn.cluster import ...
вопрос задан: 2 August 2016 14:50
2
ответа

Быстрое расстояние Левенштейна в R?

Существует ли пакет, который содержит функцию подсчета расстояния Левенштейна, которая реализована как код C или Фортрана? У меня есть много строк для сравнения, и stringMatch от MiscPsycho является слишком медленным для этого....
вопрос задан: 1 August 2016 21:34
2
ответа

Как сравнить почти подобные Строки в Java? (Строковая мера по расстоянию) [закрытый]

Я хотел бы сравнить две строки и получить некоторый счет, насколько они выглядят подобными. Например, "Предложение почти подобно", и "Предложение подобно". Я не знаком с существующими методами в...
вопрос задан: 18 February 2016 11:30
2
ответа

Что алгоритм дает предложениям в программе проверки правописания?

Какой алгоритм обычно используется при реализации программы проверки правописания, которая сопровождается с предложениями слова? Сначала я думал, что могло бы иметь смысл проверять каждое новое введенное слово (если не найденный в...
вопрос задан: 5 September 2010 15:50
2
ответа

Алгоритм расстояния редактирования

У меня есть словарь 'n' данных слов и существуют Запросы 'm' для ответа на. Я хочу произвести количество слов в словаре, которые являются расстоянием редактирования 1 или 2. Я хочу оптимизировать набор результатов...
вопрос задан: 5 September 2010 15:28
2
ответа

Расстояние Левенштейна в T-SQL

Я интересуюсь алгоритмом в T-SQL, вычисляющем расстояние Левенштейна.
вопрос задан: 5 September 2010 15:28
2
ответа

Соответствие приблизительной строке в Базовом Хранилище данных

У меня есть небольшая проблема с базовым применением данных, которое я в настоящее время пишу. У меня есть две differents модели, контексты и хранилища peristent. Каждый для моих данных приложения, другой - для веб-сайта с...
вопрос задан: 19 May 2009 10:18
1
ответ

Поиск слов в длинной строке на расстоянии редактирования без учета пробелов

Я ищу алгоритм для эффективного поиска слов в пределах заданного расстояния редактирования в строке запроса, игнорируя при этом пробел. Например, Если слова, по которым мне нужно построить индекс: OHIO, ...
вопрос задан: 21 February 2019 04:13
1
ответ

Damerau-Levenshtein php

Я ищу реализации алгоритма Damerau–Levenshtein для PHP, но кажется, что я ничто не могу найти со своим другом Google. До сих пор я должен использовать PHP, реализованную Levenshtein (...
вопрос задан: 5 September 2010 04:33
1
ответ

Как Вы реализуете расстояние Левенштейна в Delphi?

Я отправляю это в духе ответа на Ваши собственные вопросы. Вопрос, который я имел, был: Как я могу реализовать алгоритм Levenshtein для вычисления расстояния редактирования между двумя строками, как описано...
вопрос задан: 10 September 2008 18:13
0
ответов

OCR: взвешенное расстояние Левенштейна

Я пытаюсь создать систему оптического распознавания символов со словарем. На самом деле у меня еще нет реализованного словаря =) Я слышал, что есть простые метрики, основанные на Левенштейне ...
вопрос задан: 15 August 2019 21:12
0
ответов

Расстояние Левенштейна в регулярном выражении

Можно ли включить расстояние Левенштейна в запрос регулярного выражения? (За исключением объединения перестановок, например, для поиска "hello" с расстоянием Левенштейна 1:.ello | привет...
вопрос задан: 7 July 2019 18:26
0
ответов

Высокопроизводительное сравнение нечетких строк в Python, используйте Levenshtein или difflib [закрыто]

Я выполняю нормализацию клинических сообщений (проверку орфографии), в которой я проверяю каждое данное слово по медицинскому словарю на 900 000 слов . Меня больше беспокоит временная сложность / производительность. Я хочу ...
вопрос задан: 25 June 2019 07:56
0
ответов

Реализация простого Trie для эффективного вычисления расстояния Левенштейна - Java

ОБНОВЛЕНИЕ 3 Готово. Ниже приведен код, который, наконец, прошел все мои тесты. Опять же, это моделируется по модифицированной версии алгоритма Стива Ханова Мурило Васконсело. Спасибо всем, что помогло! / ** * ...
вопрос задан: 17 June 2019 08:56
0
ответов

Матрица замешивания в тензорном потоке с помощью SparseTensors?

Это возможно? Я классифицирую последовательности, конкретно фонемы в предложениях, поэтому мой вход - SparseTensor. Я должен вычислить точность с tf.edit_distance (расстояние Левенштейна, которое ...
вопрос задан: 13 July 2018 18:08
0
ответов

Levenshtein Distance: Inferring the edit operations from the matrix

I wrote Levenshtein algorithm in in C++ If I input: string s: democrat string t: republican I get the matrix D filled-up and the number of operations (the Levenshtein distance) can be read in D[10][...
вопрос задан: 14 June 2018 20:35
0
ответов

Как рассчитать меру сходства расстояний для данных двух строк?

Мне нужно вычислить сходство между двумя строками. Итак, что именно нужно делать Я имею в виду? Позвольте мне объяснить на примере: Настоящее слово: больница. Ошибочное слово: haspita Теперь моя цель - определить, сколько ...
вопрос задан: 8 February 2018 17:15