Алгоритм обнаружения и сравнения фраз

У меня есть пара неанглийских текстов. Я хотел бы провести стилистические сравнения с ними.

Один из методов сравнения стилей - это поиск похожих фразы. Если я нахожу в одной книге "рыбалка, катание на лыжах и походы" пару раз, а в другой книге "рыбалка, походы и катание на лыжах", сходство в стиле указывает на одного автора. Мне также нужно уметь найти "рыбалка и катание на лыжах". даже катание на лыжах или пеший туризм ». В идеале я бы также нашел« рыбалка, походы и катание на лыжах », но поскольку это неанглоязычные тексты (греческий койне), синонимы учесть сложнее, и этот аспект не является жизненно важным

. лучший способ (1) обнаружить подобные фразы, а затем (2) найти их таким образом, который не является чрезмерно жестким в других текстах (чтобы найти «рыбалка и даже катание на лыжах или походы»)?

6
задан jcuenod 3 July 2011 в 11:03
поделиться