группировка строк подобием

Question

группировка строк подобием

У меня есть массив строк, не многие (возможно, несколько сотен), но часто долго (несколько сотен символов).

Они представляют в виде строки, обычно, ерунда и другая от другого.. но в группе тех представляют в виде строки, возможно, 5 из 300, существует большое подобие. На самом деле они - та же строка, что отличается, форматирует, пунктуация и несколько слов..

Как я могу разработать ту группу строки?

Между прочим, я пишу в рубине, но если бы ничто иное алгоритм в псевдокоде не было бы прекрасно.

спасибо

6

ruby algorithm string grouping similarity

задан luca 28 January 2010 в 23:41

3 ответа

Другие вопросы по тегам:

ruby algorithm string grouping similarity

Похожие вопросы:

score 2 · Answer 1

Вы можете использовать алгоритм levenshtein для этого. Вот Реализация в Ruby.

2

ответ дан 17 December 2019 в 00:09

score 0 · Answer 2

Это может быть сверхугольника и, возможно, не точным приспособленным к тому, что вы хотите добиться, но вы сможете использовать «хорьку», чтобы помочь (рубиновая версия Lucene - Full-Text Индекс / поиск API) Чтобы разобраться из пунктуации и форматирования - также, если предложения отличаются по обычным «стоп-словам» (то, а, есть ...), их можно отфильтровать.

Затем ваши поиски будут назначены веса: что дает представление о ссореемости.

http://www.davebalmain.com/ http://www.amazon.co.uk/ferret-david-balmain/dp/0596519400/ruef=sr_1_2?ie=utf8&s= kack&qid=1264751909&sr= 8-2