3
ответа

Удалить конкретные слова с определенной пунктуацией в R

Я работаю над корпусом в R, который содержит опросы на русском языке. В начале каждого вопроса указываются имена говорящего человека. К примеру: президент. - Ты Николай ...
вопрос задан: 20 March 2019 16:06
2
ответа

R: Ошибка в if (n & gt; 0) c (NA_integer_, -n) else integer (): отсутствует значение, в котором требуется TRUE / FALSE [дублировать]

Мне нужно объединить два набора данных, используя ссылку сравнения для вычисления весов. Первый набор данных имеет 2,5 миллион рядов, второй набор данных - 300 000 рядов. Оба набора данных имеют только одну переменную (ido) и я ...
вопрос задан: 26 December 2014 17:32
1
ответ

R tm - как получить разреженность TermDocumentMatrix как переменной? [Дубликат]

У меня есть несколько больших TermDocumentMatrices, которые я обрезаю до более управляемого размера, используя функцию removeSparseTerms (). Один из аргументов, которые я должен отправить, конечно, разрежен. ...
вопрос задан: 7 October 2015 18:25
0
ответов

Как сгладить список списков?

Пакет tm расширяет c таким образом, что при наличии набора PlainTextDocuments он автоматически создает корпус. К сожалению, похоже, что каждый PlainTextDocument должен быть указан отдельно. например если ...
вопрос задан: 7 January 2019 11:39
0
ответов

Текстовый файл R и интеллектуальный анализ текста… как загрузить данные

Я использую пакет R tm и хочу выполнить анализ текста. Это один документ, который рассматривается как набор слов. Я не понимаю документацию о том, как загрузить текстовый файл и создать ...
вопрос задан: 5 November 2015 16:11
0
ответов

R tm removeWords функция не удаляет слова

Я пытаюсь удалить некоторые слова из корпуса, который я построил, но, похоже, он не работает. Сначала я пробегаю все и создаю фрейм данных, в котором перечислены мои слова в порядке их частоты. Я ...
вопрос задан: 26 August 2015 12:07
0
ответов

R tm В mclapply (content (x), FUN,…): все запланированные ядра столкнулись с ошибками в коде пользователя

Когда я запускаю следующие коды в предпоследней строке, я получаю предупреждение: В mclapply (content (x), FUN, ...): все запланированные ядра столкнулись с ошибками в коде пользователя. Когда я запускаю последнюю строку, ...
вопрос задан: 31 July 2014 22:25
0
ответов

Snowball Stemmer только связан с последним словом

Я хочу стебель документы в корпусе простых текстовых документов с использованием пакета TM в R. Когда я применяю функцию SnowballstemMer для всех документов корпуса, только последнее слово Каждый ...
вопрос задан: 11 September 2012 08:16
0
ответов

относительно функции data() в R

При использовании загруженных пакетов R, таких как "tm", данный пример обычно загружает примерный набор данных, такой как data("crude") Как я могу узнать, что именно эти данные набор и в каком формате, ...
вопрос задан: 11 September 2012 08:15
0
ответов

Ошибка пакета TM "не может преобразовать документацию documenttermmatrix в нормальную матрицу, поскольку Vector слишком большой«

, я создал документацию, что содержит 1859 документов (строки) и 25722 (столбцы). Чтобы выполнить дальнейшие расчеты на этой матрице, мне нужно преобразовать его в обычную матрицу. Я хочу ...
вопрос задан: 11 September 2012 08:15
0
ответов

R, определяющее строку/документ/корпус

Я пытаюсь сделать некоторые выводы в R, но, похоже, он работает только с отдельными документами. Моя конечная цель — матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример :...
вопрос задан: 9 August 2012 04:32
0
ответов

Пакет R tm создает матрицу из N наиболее часто встречающихся терминов

У меня есть termDocumentMatrix, созданный с использованием пакета tm в R. Я пытаюсь создать матрицу/фрейм данных, в которой есть 50 наиболее часто встречающихся терминов. Когда я пытаюсь преобразовать в матрицу, я получаю это...
вопрос задан: 16 July 2012 16:42