Удаление стоп-фраз из DocumentTermMatrix

Используйте RegexOptions.Singleline, он меняет значение. включить новые строки

Regex.Replace (content, searchText, replaceText, RegexOptions.Singleline);

0
задан user1329307 13 July 2018 в 19:19
поделиться

1 ответ

Я встретил это решение из пакета «gofastR» в R:

dtm2 <- remove_stopwords(dtm, stopwords = stopwords)

Однако я все еще видел стоп-фразы в результатах. После просмотра документации remove_stopwords предполагает, что у нее есть отсортированный список - вы можете подготовить свои стоп-слова / фразы, используя функцию prep_stopwords () из одного и того же пакета.

stopwords<-prep_stopwords(stopwords)
dtm2 <- remove_stopwords(dtm, stopwords = stopwords)

Чтобы сделать это и закончите. Мы можем выполнить вывод в части tm_map кода и удалить следующие шаги:

stopwords<-prep_stopwords(stemDocument(stopwords))
dtm2 <- remove_stopwords(dtm, stopwords = stopwords)

, так как это приведет к остановке слов, которые будут соответствовать уже сжатым словам в dtm.

0
ответ дан user1329307 17 August 2018 в 12:12
поделиться
Другие вопросы по тегам:

Похожие вопросы: