Нахождение самой длинной общей подстроки в большом наборе данных

За последние несколько дней я тщательно исследовал это, я прочитал так много вещей, что сейчас запутался еще больше, чем когда-либо. Как найти самую длинную общую подстроку в большом наборе данных? Идея состоит в том, чтобы удалить дублирующийся контент из этого набора данных (разной длины, поэтому алгоритм должен работать непрерывно). Под большим набором данных я подразумеваю примерно 100 МБ текста.

Суффиксное дерево? Массив суффиксов? Рабин-Карп? Как лучше? И есть ли там библиотека, которая может мне помочь?

Очень надеюсь на хороший ответ, у меня сильно болит голова. Спасибо! : -)

9
задан diffuse 17 November 2010 в 20:34
поделиться