Обнаружение «шаблонов» в данном тексте?

Если у меня есть значительное количество текста и я пытаюсь найти шаблоны, которые встречаются наиболее часто, я думал о том, чтобы решить его, используя подход N-Gram, и на самом деле это было предложено в качестве решения в и этом вопросе, но мои требования немного другие. Чтобы прояснить, у меня есть такой текст:

I wake up every day morning and read the newspaper and then go to work
I wake up every day morning and eat my breakfast and then go to work
I am not sure that this is the solution but I will try
I am not sure that this is the answer but I will try
I am not feeling well today but I will get the work done and deliver it tomorrow
I was not feeling well yesterday but I will get the work done and let you know by tomorrow

, и я пытаюсь извлечь такие «шаблоны»:

I wake up every day morning and ... and then go to work
I am not sure that this is the ... but I will try
I ... not feeling well ... but I will get the work done and ... tomorrow

Я ищу подход, который может масштабироваться до миллиона строк текста, поэтому мне просто интересно, могу ли я можно применить тот же подход N-грамм для решения этой проблемы или есть какие-то альтернативы?

5
задан Community 23 May 2017 в 10:27
поделиться