Я собираюсь работать над проектом НЛП на любом языке программирования (хотя я предпочитаю Python).
Я хочу взять два документа и определить, насколько они похожи.
Для Синтаксического Подобия может быть 3 простых способа обнаружить подобие.
Для Семантической близости можно использовать Встраивание BERT и попробовать другое объединение слова стратегии получить встраивание документа и затем применить подобие косинуса на встраивание документа.
усовершенствованная методология может использовать СЧЕТ BERT для получения подобия.
Ссылка Научно-исследовательской работы: https://arxiv.org/abs/1904.09675