Я работаю над корпусом в R, который содержит опросы на русском языке. В начале каждого вопроса указываются имена говорящего человека. К примеру: президент. - Ты Николай ...
Мне нужно объединить два набора данных, используя ссылку сравнения для вычисления весов. Первый набор данных имеет 2,5 миллион рядов, второй набор данных - 300 000 рядов. Оба набора данных имеют только одну переменную (ido) и я ...
У меня есть несколько больших TermDocumentMatrices, которые я обрезаю до более управляемого размера, используя функцию removeSparseTerms (). Один из аргументов, которые я должен отправить, конечно, разрежен. ...
Пакет tm расширяет c таким образом, что при наличии набора PlainTextDocuments он автоматически создает корпус. К сожалению, похоже, что каждый PlainTextDocument должен быть указан отдельно. например если ...
Я использую пакет R tm и хочу выполнить анализ текста. Это один документ, который рассматривается как набор слов. Я не понимаю документацию о том, как загрузить текстовый файл и создать ...
Я пытаюсь удалить некоторые слова из корпуса, который я построил, но, похоже, он не работает. Сначала я пробегаю все и создаю фрейм данных, в котором перечислены мои слова в порядке их частоты. Я ...
Когда я запускаю следующие коды в предпоследней строке, я получаю предупреждение: В mclapply (content (x), FUN, ...): все запланированные ядра столкнулись с ошибками в коде пользователя. Когда я запускаю последнюю строку, ...
Я хочу стебель документы в корпусе простых текстовых документов с использованием пакета TM в R. Когда я применяю функцию SnowballstemMer для всех документов корпуса, только последнее слово Каждый ...
При использовании загруженных пакетов R, таких как "tm", данный пример обычно загружает примерный набор данных, такой как data("crude") Как я могу узнать, что именно эти данные набор и в каком формате, ...
, я создал документацию, что содержит 1859 документов (строки) и 25722 (столбцы). Чтобы выполнить дальнейшие расчеты на этой матрице, мне нужно преобразовать его в обычную матрицу. Я хочу ...
Я пытаюсь сделать некоторые выводы в R, но, похоже, он работает только с отдельными документами. Моя конечная цель — матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример :...
У меня есть termDocumentMatrix, созданный с использованием пакета tm в R. Я пытаюсь создать матрицу/фрейм данных, в которой есть 50 наиболее часто встречающихся терминов. Когда я пытаюсь преобразовать в матрицу, я получаю это...