Как вычислить сходство между двумя текстовыми документами?

Question

Как вычислить сходство между двумя текстовыми документами?

Я собираюсь работать над проектом НЛП на любом языке программирования (хотя я предпочитаю Python).

Я хочу взять два документа и определить, насколько они похожи.

186

nlp

задан Trilarion 19 February 2019 в 07:11

1 ответ

Другие вопросы по тегам:

nlp

Похожие вопросы:

score 0 · Answer 1

Для Синтаксического Подобия может быть 3 простых способа обнаружить подобие.

перчатка Word2Vec
Tfidf или countvectorizer

Для Семантической близости можно использовать Встраивание BERT и попробовать другое объединение слова стратегии получить встраивание документа и затем применить подобие косинуса на встраивание документа.

усовершенствованная методология может использовать СЧЕТ BERT для получения подобия.

Ссылка Научно-исследовательской работы: https://arxiv.org/abs/1904.09675