Как вычислить сходство между двумя текстовыми документами?

Я собираюсь работать над проектом НЛП на любом языке программирования (хотя я предпочитаю Python).

Я хочу взять два документа и определить, насколько они похожи.

186
задан Trilarion 19 February 2019 в 07:11
поделиться

1 ответ

Для Синтаксического Подобия может быть 3 простых способа обнаружить подобие.

  • перчатка Word2Vec
  • Tfidf или countvectorizer

Для Семантической близости можно использовать Встраивание BERT и попробовать другое объединение слова стратегии получить встраивание документа и затем применить подобие косинуса на встраивание документа.

усовершенствованная методология может использовать СЧЕТ BERT для получения подобия. BERT SCORE

Ссылка Научно-исследовательской работы: https://arxiv.org/abs/1904.09675

0
ответ дан 23 November 2019 в 05:49
поделиться
Другие вопросы по тегам:

Похожие вопросы: