Какой алгоритм используется для поиска нграмм?
Предположим, что мои входные данные представляют собой массив слов и размер нграмм, которые я хочу найти, какой алгоритм мне следует use?
Я прошу код с предпочтением R. Данные хранятся в базе данных, так что это также может быть функция plgpsql. Я лучше знаю Java, поэтому могу «перевести» его на другой язык.
Я не ленив, я просто прошу код, потому что не хочу изобретать велосипед, пытаясь создать алгоритм, который уже готов.
Изменить: важно знать, сколько раз встречается каждый n-грамм.
Редактировать 2: есть пакет R для N-GRAMS?