За последние несколько дней я тщательно исследовал это, я прочитал так много вещей, что сейчас запутался еще больше, чем когда-либо. Как найти самую длинную общую подстроку в большом наборе данных? Идея состоит в том, чтобы удалить дублирующийся контент из этого набора данных (разной длины, поэтому алгоритм должен работать непрерывно). Под большим набором данных я подразумеваю примерно 100 МБ текста.
Суффиксное дерево? Массив суффиксов? Рабин-Карп? Как лучше? И есть ли там библиотека, которая может мне помочь?
Очень надеюсь на хороший ответ, у меня сильно болит голова. Спасибо! : -)