Какой алгоритм мне нужен, чтобы найти n-граммы?

Какой алгоритм используется для поиска нграмм?

Предположим, что мои входные данные представляют собой массив слов и размер нграмм, которые я хочу найти, какой алгоритм мне следует use?

Я прошу код с предпочтением R. Данные хранятся в базе данных, так что это также может быть функция plgpsql. Я лучше знаю Java, поэтому могу «перевести» его на другой язык.

Я не ленив, я просто прошу код, потому что не хочу изобретать велосипед, пытаясь создать алгоритм, который уже готов.

Изменить: важно знать, сколько раз встречается каждый n-грамм.

Редактировать 2: есть пакет R для N-GRAMS?

14
задан Ben 12 April 2013 в 17:20
поделиться