новичок в R и интеллектуальном анализе текста. В настоящее время использую пакет tm.
Я пытаюсь добавить тексты двух разные документы в корпусе вместе. когда я использую такой оператор, как
c(corpus.doc[[1]],corpus.doc[[2]])
или оператор вставки
paste(corpus.doc[[1]],corpus.doc[[2]])
, я получаю результат объединения текстов для каждой строки.
Например: if
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
С этими операторами я получаю что-то вроде
He visits very often She also
and stays
sometimes more
Как я могу предотвратить это и вместо этого получить
He visits very often
and
sometimes more
She also
stays
Или есть простой способ объединить документы в пакете R tm? Заранее спасибо!
Дополнительная информация
Когда я использую
a <- c (corpus.doc [[1]], corpus.doc [[2]], recursive = TRUE)
Я понимаю, что a становится корпусом с двумя документами, поэтому тексты каждого из этих документов все еще не совмещены. Я бы хотел, чтобы
a[[1]]
давал мне объединенный текст corpus.doc [[1]] и corpus.doc [[2]].
str(corpus.doc)
Показывает что-то вроде этого
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
И это продолжается ...