Как сгенерировать n-граммы в scala?

Я пытаюсь закодировать алгоритм диссоциированной прессы, основанный на n-грамме в scala. Как создать n-грамм для больших файлов: Например, для файла, содержащего «пчела - это пчела пчел».

  1. Сначала он должен выбрать случайную n-грамм. Например, пчела.
  2. Затем он должен искать n-граммы, начинающиеся с (n-1) слов. Например, пчела.
  3. выводит последнее слово этой n-граммы. Потом повторяется.

Не могли бы вы подсказать, как это сделать? Приносим извинения за неудобства.

7
задан Mihai Iorga 28 September 2012 в 08:20
поделиться