Допустим, у меня есть текстовая расшифровка диалога за период приблизительно. 1 час. Я хочу знать, какие слова встречаются в непосредственной близости друг от друга. Какой тип статистической техники я бы использовал, чтобы определить, какие слова сгруппированы вместе и насколько близко их друг к другу?
Я подозреваю, что это какой-то кластерный анализ или PCA.